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Ce polycopié contient le cours de biostatistique de la PACES - UE4 - de la Faculté de Médecine 
Pierre et Marie Curie (Paris VI). 

On pourra trouver des compléments dans le livre de A. J. Valleron : 

A.J. Valleron. UE4 : évaluation des méthodes d’analyse appliquées aux sciences de la vie et de la 
santé. Elsevier-Masson (collection Pass’Santé) 

Des QCM corrigées sont en particulier disponibles dans le livre : 

V. Morice & A. Mallet. QCM corrigées et commentées de Biostatistique. Ellipses 2012 

Pour en savoir plus : 

R. Beuscart et Collège des Enseignants de Biostatistique. Biostatistique . Omniscience, 2009 
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Introduction 


Introduction 

La statistique constitue, en médecine, l’outil permettant de répondre à de nombreuses questions qui 
se posent en permanence au médecin : 

1. Quelle est la valeur normale d’une grandeur biologique, taille, poids, glycémie ? 

2. Quelle est la fiabilité d’un examen complémentaire ? 

3. Quel est le risque de complication d’un état pathologique, et quel est le risque d’un 
traitement ? 

4. Le traitement A est-il plus efficace que le traitement B ? 


1 La variabilité et l’incertain 


Toutes ces questions, proprement médicales, reflètent une propriété fondamentale des systèmes 
biologiques qui est leur variabilité. Cette variabilité est la somme d’une variabilité expérimentale 
(liée au protocole de mesure) et d’une variabilité proprement biologique. On peut ainsi décomposer 
la variabilité d’une grandeur mesurée en deux grandes composantes : 

variabilité totale = variabilité biologique + variabilité métrologique 

• La variabilité biologique peut être elle-même décomposée en deux termes : d’une part la va¬ 
riabilité intra-individuelle, qui fait que la même grandeur mesurée chez un sujet donné peut 
être soumise à des variations aléatoires ; et d’autre part la variabilité inter-individuelle qui fait 
que cette même grandeur varie d’un individu à l’autre. 

variabilité biologique = variabilité intra-individuelle + variabilité inter-individuelle 

La variabilité intra-individuelle peut être observée lors de la mesure de la performance d’un 
athlète qui n’est pas capable des mêmes performances à chaque essai, mais qui se différencie 
des autres athlètes (variabilité inter-individuelle). En général, la variabilité intra est moindre 
que la variabilité inter. 

• La variabilité métrologique peut être elle aussi décomposée en deux termes : d’une part les 
conditions expérimentales dont les variations entraînent un facteur d’aléas ; et d’autre part les 
erreurs induites par l’appareil de mesure utilisé. 

variabilité métrologique = variabilité expérimentale + variabilité appareil de mesure 

La mesure de la pression artérielle peut grandement varier sur un individu donné suivant les 
conditions de cette mesure ; il est ainsi recommandé de la mesurer après un repos d’au moins 
15 minutes, allongé, en mettant le patient dans des conditions de calme maximal. Cette recom¬ 
mandation vise à minimiser la variabilité due aux conditions expérimentales. La précision de 
l’appareil de mesure est une donnée intrinsèque de l’appareil, et est fournie par le construc¬ 
teur. 
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Introduction 


2 La mesure d’une grandeur 


2.1 Unités et équations aux dimensions 

Les grandeurs mesurées possèdent la plupart du temps une unité. La distance entre Paris et Mar¬ 
seille se mesurera par exemple en kilomètres, l’épaisseur d’un cheveu en microns, le poids d’une 
orange en grammes. Dans quelle mesure ces grandeurs peuvent-elles être comparées ? La distance 
entre Paris et Marseille, et l’épaisseur d’un cheveu sont deux longueurs ; leur comparaison est pos¬ 
sible si on les mesure avec une unité commune, par exemple le mètre. En revanche, le poids de 
l’orange n’est pas comparable aux longueurs précédentes. 

Deux grandeurs qui peuvent être comparées sont dites posséder la même dimension. Elles peuvent 
être caractérisées par leur dimension : on parlera par exemple de longueur. Les dimensions de 
toutes les grandeurs physiques peuvent s’exprimer en fonction de sept dimensions de base : la lon¬ 
gueur notée L, la masse M, le temps T, l’intensité électrique I, la température 0, l’intensité 
lumineuse J, et la quantité de matière N. 

Par exemple une vitesse est une longueur divisée par un temps. On dira que sa dimension est LT" 1 . 
Plus précisément, de l’équation donnant la vitesse v en fonction de la distance d parcourue pendant 
le temps t, v=d/t, on déduit la relation entre les dimensions (notées entre crochets) des deux 
membres de l’équation [v] = [d]/[t] = LT" 1 . Cette relation est appelée équation aux dimensions. 
Une équation aux dimensions permet donc d’exprimer la dimension de n’importe quelle grandeur 
en fonction des dimensions élémentaires, à condition de connaître les relations entre elles. Elle per¬ 
met aussi une première validation d’une relation entre grandeurs physiques : les dimensions de la 
partie gauche et de la partie droite de la relation doivent être identiques. 

Déterminons par exemple la dimension d’une énergie ou d’un travail, à partir de la formule w =fd 
(un travail est le produit d’une force par une longueur). Une force est le produit d’une masse par 
une accélération (f = m.ÿ) et une accélération est une longueur divisée par le carré d’un temps. 
Donc [w] = [/][/] = [mj[/jr 2 J[/J = ML 2 T" 2 . 

Un autre intérêt des équations aux dimensions concerne les unités des grandeurs mesurées. On dé¬ 
finit un système d’unités en imposant des unités aux 7 dimensions de base, les autres unités de dé¬ 
finissant à l’aide des équations aux dimensions. Le système d’unités le plus utilisé est le Système 
International, ou SI, dans lequel une longueur est mesurée en mètres (m), une masse en kilo¬ 
grammes (kg), un temps en secondes (s), une intensité électrique en ampères (A), une tempéra¬ 
ture en degrés Kelvin (K), une intensité lumineuse en candelas (cd), et une quantité de matière en 
moles (mol). 

Dans le système international, certaines unités dérivées sont évidentes : une surface s’exprime en 
mètres carrés. D’autres le sont moins. Citons Y hertz pour une fréquence, le pascal pour une pres¬ 
sion, le joule pour une énergie ou un travail, le watt pour une puissance, le newton pour une force, 
le coulomb pour une charge électrique, le volt pour une différence de potentiel, Yohm pour une 
résistance, etc. 

Il existe des grandeurs sans dimension, calculées comme le rapport de deux grandeurs de même 
dimension, mais qui possèdent pourtant une unité. Un angle est une grandeur sans dimension me¬ 
surée en radians dans le système international. 
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Introduction 


2.2 Erreurs de mesure 


La mesure d’une grandeur ne peut conduire à une valeur exacte. En premier lieu, l’instrument de 
mesure possède nécessairement une précision limitée : une règle graduée millimètre par - millimètre 
ne peut donner une meilleure précision qu’un demi millimètre. En second lieu, la grandeur à me¬ 
surer peut être source de variabilité intra-individuelle : la répétition de la mesure avec le même ins¬ 
trument et dans des conditions identiques conduit alors à des résultats différents. Enfin, 
l’instrument de mesure peut être mal étalonné ou mal adapté et conduire à un biais de mesure 
systématique : les valeurs mesurées seront systématiquement trop élevées, ou systématiquement 
trop basses. 

Pour une grandeur X à mesurer, on note AX l’erreur de mesure. Cette erreur est généralement fa¬ 
cilement connue si elle n’est due qu’à un problème de précision. S’il existe une variabilité intra- 
individuelle (raisonnablement faible), on fera intervenir l’écart-type des mesures (voir chapitre 10 
page 99). Si x est la valeur mesurée, la vraie valeur est donc comprise entre x-AX et x+AX. 

Si une grandeur G n’est pas mesurée, mais déduite d’autres grandeurs X, Y, Z à l’aide d’une for¬ 
mule, l’erreur AG sur G doit se déduire des erreurs AX, AF, A Z sur X, Y, Z. 

Le plus souvent, on utilise un calcul basé sur la différentielle totale exacte de la formule. Si 
G =f(X, Y, Z), la différentielle totale exacte 1 * est : 


df 


S-dX + jtt/IY + ËLdZ 
ÔX dY ÔZ 


L’erreur de mesure est alors donnée par : 


AG = A/ 


df 

AX + 

df 

AF + 

df 

ÔX 


ÔY 


ÔZ 


A Z 


Supposons par exemple devoir calculer une résistance R en mesurant l’intensité I du courant qui y 
circule et la différence de potentiel U à ses bornes. La formule liant ces grandeurs est R = U/I. On 
mesure U = 1000 volts à 1 volt près et I = 1 ampère à 10" 3 ampère près. 


La formule donne R = 1000 ohms et l’erreur se calcule par A R = —— + — AI = 1 

I f 

Le calcul basé sur la différentielle totale exacte n’est cependant qu’une approximation (on confond 
une courbe et sa tangente). Lorsque des calculs plus exacts sont possibles, ils sont préférables. Ain¬ 
si, supposons avoir trouvé 100 avec une précision de 1 pour la mesure d’une grandeur X et nous 
intéresser à la grandeur Y =1/X. 

La formule de la différentielle totale exacte donne AF = — = 10 , donc une valeur de F com¬ 
prise entre 0,0099 et 0,0101. X 


Mais puisque la vraie valeur de X est comprise entre 99 et 101, la vraie valeur de F est en réalité 
comprise entre 1/101 et 1/99, soit entre 0,009901 et 0,010101. 


1. Rappel : calculer la dérivée partielle d’une fonction par rapport à l’une des variables consiste à dériver en 

assimilant les autres variables à des constantes. 
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Introduction 


3 La décision dans l’incertain 


Pour prendre une décision diagnostique ou thérapeutique le médecin doit avoir des éléments lui 
permettant de prendre en compte cette variabilité naturelle, pour distinguer ce qui est normal de ce 
qui est pathologique (décision à propos d’un patient) et pour évaluer la qualité d’un nouvel examen, 
ou d’une nouvelle thérapeutique (décision thérapeutique). La compréhension des méthodes statis¬ 
tiques, de leur puissance et de leurs limites, est essentielle pour un médecin de nos jours. Tout ré¬ 
sultat de recherche médicale résulte d’une expérimentation (clinique ou biologique) qui s’appuie 
sur une méthodologie statistique rigoureuse, et dont les résultats sont analysés en termes statis¬ 
tiques. 

De même la démarche statistique permet d’évaluer les risques (ou les bénéfices) d’une prescrip¬ 
tion, de déterminer dans une situation donnée l’examen qui apportera la meilleure information dia¬ 
gnostique. 

Nous voyons donc l’importance de la maîtrise de l’outil et de la démarche statistique : 

• Pour permettre les progrès de la connaissance médicale : c’est le domaine de la recherche cli¬ 
nique qui ne peut s’accomplir convenablement (définition de la question, mise en place du 
protocole expérimental, analyse des résultats) qu’en suivant une méthodologie statistique ri¬ 
goureuse. 

• Pour mieux connaître l’état de santé d’une population, la fréquence et la gravité d’une épidé¬ 
mie (penser au SIDA), etc. Cette connaissance se fera à partir d’échantillons convenablement 
choisis et de calculs basés sur les outils de la statistique. Il sera alors possible de rechercher 
les stratégies de prévention les mieux adaptées, d’en évaluer leur impact. Il s’agit là des ap¬ 
plications relevant de l’épidémiologie et de la santé publique. 

• Pour améliorer la pratique médicale dans ses aspects décisionnels, à savoir choisir le meilleur 
examen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus sûrement au dia¬ 
gnostic. Pour optimiser la thérapeutique, choisir le traitement le mieux adapté à un patient 
donné (choix du médicament, posologie, etc). 

L’objectif de ce cours est de vous fournir les bases indispensables permettant de comprendre les 
méthodes utilisées, d’interpréter correctement les résultats de nouvelles recherches, et d’adopter un 
mode de raisonnement qui soit à même d’aider à la décision dans l’exercice de la médecine. 

Plus précisément nous étudierons successivement : 

1. Les bases de calcul de probabilités, qui sont indispensables à la compréhension et à l’utilisa¬ 
tion des méthodes statistiques. 

2. La statistique descriptive qui permet de représenter et de quantifier la variabilité d’une ou plu¬ 
sieurs grandeurs observées. 

3. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothèse 
A plutôt qu’une hypothèse B à partir de données expérimentales (comme dans le cas de la 
comparaison de deux traitements, où l’hypothèse A est que les deux traitements sont équiva¬ 
lents et l’hypothèse B est qu’ils sont différents). 

4. Les applications des méthodes statistiques à l’épidémiologie, à l’aide à la décision thérapeu¬ 
tique et diagnostique, et les applications aux essais thérapeutiques. 


14/179 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE mEDECine 


g. 


2013 -2014 



Chapitre 1 


Statistique(s) et Probabilité(s) 


Statistique(s) et Probabilité(s) 

Nous commencerons par définir les termes et les concepts importants. 


1.1 Statistique 


Le terme statistique désigne à la fois un ensemble de données d’observations, et l’activité qui 
consiste en leur recueil, leur traitement et leur interprétation. Les termes statistique , ou 
statistiques (au pluriel) englobent ainsi plusieurs notions distinctes : 

1. D’une part le recensement de grandeurs d’intérêt comme le nombre d’habitants d’un pays, le 
revenu moyen par habitant, le nombre de séropositifs dans la population française. Nous 
voyons que la notion fondamentale qui se dégage de cette énumération est celle de 
Population. Une population est un ensemble d’objets, d’êtres vivants ou d’objets abstraits 
(ensemble des mains de 5 cartes distribuées au bridge...) de même nature. 

2. La statistique en tant que science s’intéresse aux propriétés des populations naturelles. Plus 
précisément elle traite de nombres obtenus en comptant ou en mesurant les propriétés d’une 
population. Cette population d’objets doit en outre être soumise à une variabilité, qui est due 
à de très nombreux facteurs inconnus (pour les populations d’objets biologiques qui nous in¬ 
téressent ces facteurs sont les facteurs génétiques et les facteurs environnementaux). 

3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (au 
singulier) qui définit toute grandeur calculée à partir d’observations. Ce peut être la plus 
grande valeur de la série statistique d’intérêt, la différence entre la plus grande et la plus petite, 
la valeur de la moyenne arithmétique de ces valeurs, etc. 


1.2 Population et échantillon 


On appelle population P un ensemble généralement très grand, voire infini, d’individus ou d’objets 
de même nature. Tous les médecins de France constituent une population, de même que l’ensemble 
des résultats possibles du tirage du loto. Une population peut donc être réelle ou fictive. 

Il est le plus souvent impossible, ou trop coûteux, d’étudier l’ensemble des individus constituant 
une population ; on travaille alors sur une partie de la population que l’on appelle échantillon. 
Pour qu’un échantillon permette l’étude de la variabilité des caractéristiques d’intérêt de la popu- 
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lation, il faut qu’il soit convenablement sélectionné. On parlera d’échantillon représentatif si les 
individus le constituant ont été tirés au sort 1 dans la population. Si par exemple on souhaite déter¬ 
miner les caractéristiques « moyennes » du poids et de la taille des prématurés masculins on tirera 
au hasard un certain nombre de sujets parmi les naissances de prématurés de l’année. 

Chaque individu, ou unité statistique, appartenant à une population est décrit par un ensemble de 
caractéristiques appelées variables ou caractères. Ces variables peuvent être quantitatives (numé¬ 
riques) ou qualitatives (non numériques) : 

quantitatives 

pouvant être classées en variables continues (taille, poids) ou discrètes (nombre d’enfants 
dans une famille) 

qualitatives 

pouvant être classées en variables catégorielles (couleurs des yeux) ou ordinales (intensité 
d’une douleur classée en nulle, faible, moyenne, importante). 


1.3 Statistique et probabilité 


La théorie (ou le calcul) des probabilités est une branche des mathématiques qui permet de modé¬ 
liser les phénomènes où le hasard intervient (initialement développée à propos des jeux de hasard, 
puis progressivement étendue à l’ensemble des sciences expérimentales, dont la physique et la bio¬ 
logie). 

Cette théorie permet de construire des modèles de ces phénomènes et permet le calcul : c’est à par¬ 
tir d’un modèle probabiliste d’un jeu de hasard comme le jeu de dés que l’on peut prédire les fré¬ 
quences d’apparition d’événements comme le nombre de fois que l’on obtient une valeur paire en 
jetant un dé un grand nombre de fois. Les éléments de calcul des probabilités indispensables à la 
compréhension des statistiques seront traités dans la première partie du cours. 

Sous jacente à la notion de statistiques se trouve la notion de Population dont on souhaite connaître 
les propriétés (plus précisément les régularités), permettant en particulier de savoir si deux popu¬ 
lations sont identiques ou non. Ce cas est celui du cadre des essais thérapeutiques, où l’on considère 
2 populations (patients traités avec le médicament A ou avec le médicament B) dont on souhaite 
savoir si elles diffèrent ou non (c’est le cas le plus simple des essais cliniques). Pour ce faire il est 
nécessaire de modéliser les populations, en utilisant des modèles probabilistes. Un modèle de ce 
type est par exemple de considérer que la taille des individus suit une distribution gaussienne. A 
partir de ce modèle on peut calculer les propriétés d’échantillons ; c’est ce qu’on appelle une dé¬ 
duction qui va du modèle vers l’expérience. A l’inverse, considérant un échantillon d’une popula¬ 
tion on peut essayer de reconstruire le modèle de la population. 

Cette démarche est calquée sur la démarche scientifique habituelle. Le scientifique est capable, en 
utilisant les mathématiques, de prédire le comportement d’un modèle donné (c’est par exemple une 
« loi » de la physique) : c’est la démarche déductive. A l’inverse, observant des faits expérimen- 


1. Nous reviendrons sur cette méthode permettant d’obtenir un échantillon représentatif de la population 
étudiée. Cela consiste en gros à sélectionner les individus sur la base d’un tirage analogue à celui qui 
consiste à tirer des noms dans une urne qui contiendrait tous les noms possibles. 


16/179 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE mEDECine 


g. 


2013 -2014 




Statistique(s) et Probabilité(s) 


taux il va tenter de dégager des propriétés générales du phénomène observé qu’il va en général re¬ 
présenter sous forme d’un modèle (toutes les lois de la physique et de la chimie sont des modèles 
mathématiques les plus généraux possibles des faits expérimentaux) : c’est la construction induc¬ 
tive de la théorie. Cette démarche générale va plus loin car le modèle permet de prédire des expé¬ 
riences non réalisées. Si les prédictions ainsi réalisées sont contradictoires avec les résultats 
expérimentaux alors on pourra avec certitude réfuter le modèle (on dit aussi qu’on l’a falsifié) ; 
dans le cas contraire on garde le modèle mais on n’est pas certain qu’il soit « vrai ». Autrement dit, 
à l’issue d’un tel test on ne peut avoir de certitude que si on a trouvé des éléments permettant de 
réfuter le modèle. Nous verrons dans la suite que cette approche se transpose exactement dans la 
démarche statistique, en particulier dans le domaine des tests. 
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Chapitre 2 


Rappels mathématiques 

2.1 Ensembles, éléments 


On appelle ensemble, toute liste ou collection d’objets bien définis, explicitement ou 
implicitement ; on appelle éléments ou membres de l’ensemble les objets appartenant à l’ensemble 
et on note : 

• p e A si p est un élément de l’ensemble A 

• B est partie de A , ou sous ensemble de A, et l’on note B a A ou A d 5 , si x e B => x e A 
On définit un ensemble soit en listant ses éléments, soit en donnant la définition de ses éléments : 

• A = {1, 2, 3} 

• X = {x : x est un entier positif} 

Notations : 

• la négation de x e A est x g A 

• 0 est l’ensemble vide 

• E est l’ensemble universel. 


2.2 Opérations sur les ensembles 

Soient A et B deux ensembles quelconques. 

Intersection 

L’intersection de A et B, notée A n B , est l’ensemble des éléments x tels que x e A et 
x e B . Soit : 

A n B = { x : x e A et x e B } 

Le terme « et » est employé au sens x e A et B si x appartient à la fois à A et à B 
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Cas particulier : si A nB = 0 , on dit que A et B sont disjoints. 

Réunion 

La réunion de A et B, notée A u B , est l’ensemble des éléments x tels que x e A ou 
x e B . Soit : 

Au B =jjt:xeA ou .ïefi } 

Le terme « ou » est employé au sens x e A ou B si x appartient à A, ou à B , ou à A et B 
(car x e A et B signifie x e A et x e B ). 



Complémentaire 

Le complémentaire de A est l’ensemble des éléments de E qui n’appartiennent pas à A. 

CA = À = {x \ x £ A) 



Différence 

La différence entre A et B , ou complémentaire de B relatif à A, est l’ensemble des éléments 
de A qui n’appartiennent pas à B. 

A - B = CaB = {x : x <£ B et x e A} 
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Algèbre des ensembles 


A uA = A 

(AuB)uC = Au(5uC) 

A u B = B u A 

Au(BnC) = (AuB)n(AuC) 
A u 0 = A 
Au E = E 

A u Ca = E 

CCa = A 

C(A u B) = Ca n CjS 


A n A = A 

(A n B) n C = A n (B n C) 
AnB = B nA 

An (Bu C) = (AnB)u(AnC) 
AnE = A 
A n 0 = 0 

A n Ca = 0 

Ce = 0, C0 = E 

C(A nB) = Ca u Cb 


2.3 Ensembles finis, dénombrables, non 
dénombrables 

• Un ensemble est fini s’il est vide (0) ou s’il contient un nombre fini d’éléments ; sinon, il est 
infini : 

A = {a j, a 2 , « 3 } est fini ; 

I = {x e [ 0 , 1 ] } est infini. 

• Un ensemble infini est dit dénombrable si on peut faire correspondre de façon unique chaque 
élément de l’ensemble à un entier naturel et un seul : 

A = {n : n est un entier pair] est infini dénombrable. 

• Un ensemble infini est non dénombrable dans le cas contraire. Dans la pratique, les seuls en¬ 
sembles infinis non dénombrables que nous rencontrerons seront des intervalles de 91 : 
{x e [a,b] } ou des intervalles de 9Î 2 : { (x, y) : x e [a,b], y e [c,d] }. 


2.4 Ensembles produits 


Soient A et B deux ensembles ; l’ensemble produit de A et de B, noté A x B , est l’ensemble de tous 
les couples ordonnés (a, b), avec a e A et b e B. 

Exemples : 
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• A = {a, b, c} ; B = {1, 2} 

A x B = { (a, 1), (a, 2), (b, 1), (b, 2), (c, 1), (c, 2) } 

• tR x 9? est le plan cartésien, chaque élément de tR x 91 étant défini par son abscisse et son 
ordonnée : 



b 


(a,b) 


a 


SR 


2.5 Familles d’ensembles 


Les éléments d’un ensemble peuvent eux-mêmes être des ensembles. On dit alors que ces en¬ 
sembles font partie de la même classe ou de la même famille. 

Parties 

Soit un ensemble A quelconque. On appelle famille des parties de A l’ensemble des sous- 
ensembles de A. 

Exemple : A = {1, 2} 

P (A) = {0,{1},{2}, {1,2}} 

Partition 

Une partition d’un ensemble A est une subdivision de A en sous-ensembles disjoints dont 
la réunion forme A. 

Notation 

Soit une famille d’ensembles {A, } = {Aj, A 2 , ...., A n , ....} qui peut être finie ou non. On 


note : 




= A 1 u A 2 u ., 

..uA, ; u 

rv». 

= A 1 n A 2 n ., 

..nA, ; n 


2.6 Autres rappels mathématiques 


2.6.1 Rappel sur les sommes 

n 

Soit {a t } une suite de termes a,-. On note ^ a f = a l + a ? + ... + a n . 
Propriétés : . _ . 
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L YS a i + bi) = Y^ai + Yjbi 

2 . £( ka i ) = 

i i 

Si k est une constante (indépendante de i), elle peut être sortie de la somme. 


2.6.2 Rappel sur les intégrales 

Définition 

Soit/ une fonction réelle. L’intégrale définie de cette fonction sur l’intervalle [a,b] est 
l’aire sous la courbe de/ sur l’intervalle [a,b]. 

Elle est notée j \f(x)dx. 

f(x) ^J{x)dx 



Propriétés 

1 • fa + s(x))dx = J b a f(x)dx + £ g(x)dx 

2 . kf(x)dx = k\ b J{x)dx 

3. ^ b f(x)dx = ^J\x)dx + j b f(x)dx 

Fonction primitive 

Soit/ une fonction réelle. L’aire sous la courbe sur l’intervalle ]-oo, x\ varie lorsqu’on fait 
variera de -oo à +oo. Cette aire est une fonction F de x, appelée fonction primitive de/. Elle 
est définie par : 

F (x) = |^ œ /(T)Jx 

Noter l’utilisation de la variable d’intégration x. On peut utiliser n’importe quel nom de va¬ 
riable (il s’agit d’une variable muette), différent de la borne d’intégration x. 

Propriétés 

1. Si F(x) = P /(x) dx , alors f(x) = c ^( x ) 

dx 

Donc F se déduit de/par intégration, et/ se déduit de F par dérivation. 

2. \ b f(x)dx = F(b)-F(a ) 

J a 
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Chapitre 3 

Eléments de calcul des 
Probabilités 

3.1 Introduction 


Le calcul des probabilités est la théorie mathématique, donc fondée axiomatiquement, qui permet 
de modéliser des phénomènes aléatoires, ou non déterministes. 

De tels phénomènes sont bien représentés par les jeux de hasard dont l’étude a initié le calcul des 
probabilités. Considérons le cas du jeu de dés ; lorsqu’on jette un dé on est certain qu’il va tomber 
sur la table (phénomène déterministe), mais on n’est pas capable de prédire la valeur qui va sortir 
(phénomène aléatoire). 

Un phénomène déterministe est un phénomène dont on peut prévoir le résultat ; les lois de la phy¬ 
sique classique sont des modèles permettant de prédire le résultat d’une expérience donnée. La loi 
d’Ohm permet de prédire la valeur de l’intensité du courant connaissant la résistance et la tension 
aux bornes. Les lois de la physique mettent en évidence une régularité qui permet de prédire les 
résultats d’une expérience lorsqu’on contrôle les causes. 

Les phénomènes aléatoires exhibent un autre type de régularité. Prenons le cas des lois de Mendel. 
Mendel était un biologiste qui étudiait les résultats du croisement de deux espèces de plantes ; plus 
précisément, il étudiait la transmission de caractères comme la couleur, l’aspect, etc. Une observa¬ 
tion typique de régularité d’un nouveau type est d’observer que, sur une série suffisamment grande 
de croisements de deux espèces A et B, on observait par exemple, dans 1/4 des cas, les caractères 
de A, et dans 3/4 des cas, les caractères de B. Une telle régularité fréquentielle a donné lieu à ce 
qu’on appelle les lois de Mendel. Cette régularité permet de prédire la fréquence d’apparition d’un 
phénomène, ce qui est plus « faible » que la prédiction déterministe. L’étude et la modélisation de 
tels phénomènes (la recherche de lois) est le champ d’application du calcul des probabilités. 
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3.2 Expérience aléatoire, ensemble 
fondamental et événements 

Expérience aléatoire 

On s’intéresse ici aux seules expériences dont le résultat n’est pas prévisible, les expé¬ 
riences aléatoires. Une expérience aléatoire est aussi appelée une épreuve. 

Ensemble fondamental 

Pour une expérience aléatoire donnée, l’ensemble des résultats possibles est appelé l’en¬ 
semble fondamental, que nous noterons E dans la suite du cours. Chaque résultat d’expé¬ 
rience est un point de E ou un élément de E. 

Evénement 

Un événement A est un sous ensemble de E , c’est-à-dire un ensemble de résultats. 
L’événement {a}, constitué par un seul point de E , donc par un seul résultat a e E , est ap¬ 
pelé événement élémentaire. 

L’ensemble vide 0 ne contient aucun des résultats possibles : il est appelé événement im¬ 
possible. 

L’ensemble E contient tous les résultats possibles : c’est l’événement certain. 

Si E est fini, ou infini dénombrable, tout sous-ensemble de E est un événement ; ce n’est 
pas vrai si E est non dénombrable (ceci sort du cadre de ce cours). 

On note parfois Q l’ensemble de tous les événements. 

Exemples 

1. On jette un dé et on observe le résultat obtenu. L’ensemble fondamental est formé par 
les 6 résultats possibles : 

E = {1, 2, 3, 4, 5, 6} 

L’événement correspondant à l’apparition d’un nombre pair est A = {2, 4, 6}, qui est 
bien un sous ensemble de E. 

L’événement correspondant à l’apparition d’un nombre premier est B = {1, 2, 3, 5}, 
et l’événement correspondant à l’apparition d’un 3 est C = {3}. 

2. Dans l’exemple précédent E était fini et donc dénombrable ; E peut être infini dénom¬ 
brable comme dans le cas suivant. On jette une pièce de monnaie jusqu’à ce qu’on ob¬ 
tienne pile ; l’ensemble fondamental correspondant est la suite des nombres entiers 
E = {1, 2, 3,..., n, ...} puisqu’on peut avoir un pile au bout d’un jet, de 2 jets, d en jets, 
n étant aussi grand que l’on veut. 

3. On vise avec une fléchette une cible suffisamment grande ; si on admet que la fléchette 
est très fine, comme le serait un point de la géométrie, l’espace fondamental est la sur¬ 
face de la cible qui est constituée de points et donc infinie et non dénombrable. 
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3.3 Opérations sur les événements 


Les événements peuvent se combiner entre eux pour former de nouveaux événements. Si A et B 
sont deux événements, les opérations de combinaison sont : 

1. A u B est l’événement qui se produit si A ou B (ou les deux) est réalisé. 

Il est parfois noté A + B ou A ou B. 

2. A r\B est l’événement qui se produit si A et B sont réalisés tous les deux. 

Il est parfois noté A B ou A et B. 

3. CA est l’événement qui se produit quand A n’est pas réalisé. On l’appelle aussi négation de 
A. 

Il est parfois noté « non A », ou A . 

Evénements incompatibles 

Quand deux événements A et B sont tels que A n B = 0, ils ne peuvent être réalisés si¬ 
multanément. On dit qu’ils s’excluent mutuellement, ou qu’ils sont incompatibles. 
Système complet d’événements 

On dit que les événements A j, A 2 ,..., A n forment une famille complète si les A,- constituent 
une partition de E, c’est-à-dire si : 

1. les événements sont deux à deux disjoints : V(i * _/),(A • n A- = 0) 

2. ils couvrent tout l’espace : ^jA • = E 

Exemple ' 

Reprenons l’exemple précédent du jeu de dés : 

E = { 1, 2, 3, 4, 5, 6}, A = {2, 4, 6}, B = {1, 2, 3, 5}, C = {3}. 

A u R = { 1, 2, 3, 4, 5, 6 } = apparition d’un nombre pair ou premier 
A n R = {2} = apparition d’un nombre pair et premier 
CC = {1,2,4,5,6} = apparition d’un nombre autre que 3 
AnC = 0 :AetC s’excluent mutuellement. 


3.4 Règles du calcul des probabilités 


Soit un ensemble fondamental E. Nous introduisons une fonction Pr qui, à tout événement A, as¬ 
socie un nombre réel positif ou nul. 

Pr est dite fonction de probabilité, et Pr(A) est appelée probabilité de l’événement A, si les condi¬ 
tions ou règles suivantes sont satisfaits : 

1. Rr(A) > 0 pour tout événement A : une probabilité est positive ou nulle 

2. Pr(E ) = 1 : la probabilité de l’événement certain est 1 

3. (A n B = 0) => ( Pr(A ufi) = Pr(A ) + Pr(B )) : permet le calcul de la probabilité de la 
réunion de deux événements disjoints 

4. Soit un ensemble dénombrable (fini ou non) d’événements A, deux à deux disjoints 


2013 - 2014 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE fDEOECinE 


fi. 


27/179 



Eléments de calcul des Probabilités 


(. A f nAj = 0 ), alors Pr(A l u A 2 u ...) = Pr{A x ) + Pr{A 2 ) + .... 


Cette quatrième condition est proche de la troisième. Elle ne peut cependant pas s’en déduire 
dans le cas d’un ensemble d’événements infini dénombrable. 


Propriétés importantes déduites des quatre conditions précédentes : 


1. Pr(0) = 0 

Soit A un événement quelconque. A et 0 sont évidemment disjoints puisque A n 0 = 0 ; 
donc Pr{A u 0) = Pr{A) + Pr(0 ) . Or A u 0 = A ; donc Pr(A u 0) = Pr{A ) . D’où 
Pr(0) = 0. 

2. Pr(A) < 1 

A et son complémentaire Ca sont disjoints, et leur réunion forme E, de probabilité 1. Donc 
Pr(E ) = 1 = Pr(A u Ca) = Pr(A ) + Pr(CA). Toute probabilité étant positive ou 
nulle, on obtient bien Pr(A) < 1. 

3. Pr(CA) = l-Pr(A) 

A démontrer en exercice, en notant que E 

4. Si A œB , alors Pr{A) < Pr(B). 

A démontrer en exercice, en notant que B 


= Au Ca . 

= A u C S A . 


5. 



C b a 


B 


Pr(Ç,AB) = Pr(A) - Pr(A n B ) 

A démontrer en exercice, en remarquant que A = C,\B u (A n B) . 

AnB 



6. Pr(A u B) = Pr(A) + Pr(B)-Pr(AnB) 

A démontrer en exercice, en remarquant que (A u B) 


C a B u b . 
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3.5 Remarque 


Alors que Pr(0) = 0, il existe des événements non vides qui peuvent avoir une probabilité nulle. 
Dans le cas d’un ensemble infini non dénombrable, un tel événement n’est pas nécessairement 
impossible : il est alors dit « presque impossible ». 

Exemple 

Considérons l’expérience qui consiste à choisir au hasard un point sur une feuille de papier 
quadrillé avec une pointe de compas infiniment fine. La probabilité de l’événement piquer 
dans un carré donné a une certaine valeur (par exemple celle du rapport de la surface du 
carré avec celle de la feuille de papier) ; en revanche, si on réduit le carré à un point (carré 
infiniment petit) la probabilité deviendra zéro alors que l’événement (piquer dans ce carré 
si petit qu’il est devenu un point) n’est pas impossible. 

De même un événement de probabilité 1 peut ne pas être certain. Il est alors qualifié de « presque 
certain ». 


3.6 Illustration de quelques ensembles 
probabilisés 


3.6.1 Ensemble probabilisé fini 

Soit E = {a j, a 2 , ..., a u } un ensemble fondamental fini. On probabilisé cet ensemble en attribuant 
à chaque point a t un nombre p n probabilité de l’événement élémentaire {a, }, tel que : 

1. Pi >0 

2. p x +p 2 + ... +p n = 1 

La probabilité d’un événement quelconque A est la somme des probabilités des a,- qu’il contient : 
Pr{A) = £ Pj 

dj e A 

Exemple 

On jette 3 pièces de monnaie et on compte le nombre de « face » obtenu. L’ensemble fon¬ 
damental correspondant à cette expérience est E = {0, 1, 2, 3} puisqu’on peut obtenir 
comme résultat de l’expérience : 0 fois « face » (3 fois « pile »), 1 fois « face » (2 fois 
« pile »), 2 fois « face », ou 3 fois « face ». 

On probabilisé cet ensemble fini en donnant une valeur p 0 > P b P 2 et P 3 aux événements 
{0}, {1}, {2} et {3} ; comme par exemple p 0 = 1/8, P\ = 3/8, p 2 = 3/8 et p 3 = 1/8. 
Considérons l’événement A tel qu’on ait au moins 2 fois « face », A = {a 2 , a 3 } : 

Pr(A) =p 2 +p 3 = 3/8 + 1/8 = 4/8 = 1/2 
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3.6.2 Ensemble fini équiprobable 

C’est un ensemble fini probabilisé tel que tous les événements élémentaires ont la même probabi¬ 
lité. On dit aussi qu’il s’agit d’un espace probabilisé uniforme. 

E = [a h a 2 , ...,a n } et Pr({a j}) = p h Pr{{a 2 }) = p 2 ,Pr({a n }) = p n 
avec p i =p 2 = ... =p n = Un 

Les jeux de hasard - dés, cartes, loto, etc. - entrent précisément dans cette catégorie : 


• jeu de dés : E = {1, 2, 3, 4, 5, 6} ; p 1 =p 2 =p 3 =p 4 =p 5 =p 6 = 1/6 

• jeu de cartes : E = {ensemble des cartes d’un jeu de 52 cartes} ; p t = 1/52 


Propriété 

Dans un ensemble fini équiprobable, la probabilité d’un événement A est égale au rapport 
du nombre de résultats tel que A est vrai, sur le nombre d’événements de E. 

Remarque 

Quand on dit qu’on tire « au hasard », on sous-entend que l’ensemble probabilisé considéré 
est équiprobable. 

Exemple 

On tire « au hasard » une carte dans un jeu de 52 cartes. 

Quelle est la probabilité de tirer un trèfle ? 


Pr (tirer un trèfle) 


nombre de trèfles 
nombre de cartes 


13 = 1 
52 _ 4 


Quelle est la probabilité de tirer un roi ? 


„ , . . N nombre de rois 

Pr (tirer un roi) = ----- 

nombre de cartes 


£ - JL 

52 “ 13 


Quelle est la probabilité de tirer un roi de trèfle ? 
Pr (tirer un roi de trèfle) = -L 


Remarque 

Le cas des ensembles finis équiprobables est le plus simple à appréhender. Il faut insister 
sur le fait que l’équiprobabilité n’est qu’un cas particulier des ensembles probabilisés ; ce 

n’est (de loin) pas le plus utile en médecine. 


3.6.3 Ensembles probabilisés infinis 

3.6.3.1 Cas dénombrable 

On a alors un ensemble fondamental de la forme E = { a j, a 2 , ..., a n , ...} comme dans le cas fini. 
Cet ensemble fondamental est probabilisé en affectant à chaque élément a,- une valeur réelle p t 
telle que : 
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00 


Pi > 0 et X p i = 1 


i = 1 


La probabilité d’un événement quelconque est alors la somme des pj correspondant à ses élé¬ 
ments. 


Exemple 1 

A = {#25, a 31’ a 43} 

Pr{A) -p 25 +P 31 +P 43 

Exemple 2 

Si on reprend l’expérience consistant à jeter une pièce et à compter le nombre de jets jus¬ 
qu’à ce qu’on obtienne un résultat « pile » (c’est un espace infini dénombrable), on peut 
construire un espace probabilisé en choisissant : 

1 1 1 n 

Pl = 2’ p 2 = 4 ’-’Pn = Yn ’-’ Pœ=0 

Remarque : 

Le choix des /;• est arbitraire ; en réalité, il est justifié soit par des considérations a priori 
(dans le cas de l’expérience précédente on suppose que chaque jeté constitue une expé¬ 
rience avec Pr (pile) = Pr(face) = 1/2 et que le résultat d’un jet n’influe pas sur le suivant). 
Il peut être aussi estimé ; c’est le problème des statistiques qui, à partir de nombreuses réa¬ 
lisations de l’expérience, permet d’approcher les valeurs p t (ce point sera revu dans la suite 
du cours et constitue l’objet de l’approche statistique). 


3.63.2 Cas d’un ensemble probabilisé infini non dénombrable 

Pour illustrer ce cas, on peut prendre l’exemple de la chute d’un satellite en fin de vie (ce fut le cas, 
en octobre 1993 pour un gros satellite chinois dont on parla beaucoup dans la presse). Dans l’état 
actuel des connaissances sur l’orbite de ce satellite, on n’est pas capable de prédire l’endroit de la 
chute ; l’hypothèse retenue est alors celle d’un espace de probabilité uniforme. Dans ce cas, le sa¬ 
tellite a la même chance de tomber dans n’importe quelle parcelle du monde et on peut calculer la 
probabilité qu’il tombe sur Paris comme le rapport de la surface de Paris sur la surface du globe. 
Lorsqu’on se rapprochera de l’échéance, on pourra avoir des hypothèses plus précises, et on pourra 
prédire par exemple que le point de chute aura un maximum de probabilité dans une région, la pro¬ 
babilité autour de cette région étant d’autant plus petite qu’on s’éloigne de ce maximum. 

Il s’agit bien sûr d’un espace infini non dénombrable puisqu’on peut réduire (au moins par l’esprit) 
la taille de l’élément de la région considérée à celle d’un point. Des probabilités peuvent donc être 
associées à chaque région de taille non nulle, mais la probabilité d’une chute en un point donné est 
nulle, puisque sa surface est nulle. Nous verrons dans la suite que les probabilités se calculent gé¬ 
néralement à partir d’une densité (de probabilité) associée à chaque point : lorsque les points d’une 
région ont une densité élevée, la probabilité de chute dans cette région est élevée. 
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Chapitre 4 

Probabilité Conditionnelle ; 
Indépendance et Théorème de 
Bayes 


4.1 Probabilité conditionnelle 


Soient A et B deux événements quelconques d’un ensemble fondamental E muni d’une loi de pro¬ 
babilité Pr. On s’intéresse à ce que devient la probabilité de A lorsqu’on apprend que B est déjà 
réalisé, c’est-à-dire lorsqu’on restreint l’ensemble des résultats possibles E à B. 

La probabilité conditionnelle de A, sachant que l’événement B est réalisé, est notée Pr(A/ B) et est 
définie par la relation suivante : 


p ri A/ B) = 

Equation 1 : probabilité conditionnelle 

Dans cette équation, les probabilités des événements A n B et B doivent être calculées sur tout 
l’ensemble fondamental E , comme si on ne savait pas que B s’est déjà réalisé. Sinon, on obtient 
évidemment Pr{B) = 1. 



Figure 1 : probabilité conditionnelle 

Cette relation générale pour tout espace probabilisé s’interprète facilement dans le cas où E est un 
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espace équiprobable (mais cette relation est vraie pour un espace non-équiprobable !). En notant 
|A| le nombre d’éléments de A : 

n r a taa |A O B| „ , |B| n /m |A O B\ 

Pr(A n B) = Pr(B) = C4, Pr{A/B) = 

Pr(A/ B) traduit le rapport de la surface de A n B sur la surface de B dans la figure 1. 

Toujours dans le cas où E est équiprobable, on a 


Pr(A/B) = 


nombre de réalisations possibles de A et B en même temps 
nombre de réalisations de B 


Cette interprétation de la probabilité conditionnelle, facile à appréhender dans le cas d’équiproba- 
bilité, est la définition générale de la probabilité conditionnelle qu’on doit utiliser telle quelle, sans 
chercher une interprétation fréquentiste dans tous les cas. 


Exemple 

On jette une paire de dés bien équilibrés (espace équiprobable). On observe une réalisation 
de l’événement {somme des dés = 6}. Quelle est la probabilité pour qu’un des deux dés ait 
donné le résultat 2 ? 

B = {somme des deux dés = 6} 

A = {au moins un des deux dés donne 2} 

B = {(2, 4), (4, 2), (1,5), (5, 1), (3,3)} 

Nombre de réalisations de A n B = {(2, 4), (4, 2)} = 2 

D’où Pr(A/B) = ^ = ?, alors que Br(A) = ^ (à vérifier). 

\B\ 5 36 


4.2 Théorème de la multiplication 


p r (A o B ) 

Reprenons l’équation 1, définition des probabilités conditionnelles : Pr(A/B) = — ^ J 

On en tire immédiatement 

Pr(A n B) = Br(A/B)Br(B) = Pr(B/A)Pr(A ) 

Equation 2 : théorème de la multiplication 

L’équation 2 peut se généraliser facilement. Soient A j, ..., A n des événements quelconques d’un 
espace probabilisé ; à partir de l’équation 2, on montre : 

Pr(A l nA 2 n ... nAJ = Pr(A l )Pr(A 2 /A 1 )Pr(A 3 /(A l nA 2 ))...Pr(A n /(A l nA 2 ... nA„_Q) 

Exemple 

Une boîte contient 10 articles dont 4 sont défectueux. On tire 3 objets de cette boîte. Cal¬ 
culer la probabilité pour que ces 3 objets soient défectueux. 

Pr(l er défectueux) = 4/10 

Pr(2 eme défectueux /1 er défectueux) = 3/9 
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Pr( 3 ème défectueux / 1 er et 2 ème défectueux) = 2/8 
Pr(l er et 2 ème et 3 ème défectueux) = 4/10x3/9x2/8 = 1/30. 


4.3 Diagramme en arbre 


On considère une séquence finie d’expériences dont chacune d’entre elles a un nombre fini de ré¬ 
sultats possibles. Les probabilités associées aux résultats possibles d’une expérience dépendent du 
résultat de l’expérience précédente ; il s’agit de probabilités conditionnelles. Pour représenter cette 
séquence, on utilise une représentation « en arbre », le théorème précédent permettant de calculer 
la probabilité de chaque feuille de l’arbre. 

Exemple 

On sait que les taux de réussite au concours dans les trois CHU Pitié, Saint Antoine et 
Broussais (l’université Pierre et Marie Curie a longtemps comporté ces 3 CHU) étaient res¬ 
pectivement (données arbitraires) de 0,20 ; 0,15 ; et 0,10 (0,20 = /MRéussitc/Pitié)) ; on 
sait que 1/4 des étudiants de Paris VI étaient à Saint Antoine, 1/4 à Broussais et 1/2 à la 
Pitié. Quelle était la probabilité qu’un étudiant de Paris VI soit reçu au concours ? 



R signifie réussite et E échec. 

Pr(R) = Pr (R n Saint Antoine) + Pr (R n Pitié) + Pr (R n Broussais) 

Pr( R) = 0,15x1/4 + 0,20x1/2 + 0,10x1/4 = 0,1625 

La probabilité qu’un chemin particulier de l’arbre se réalise est, d’après le théorème de la 
multiplication, le produit des probabilités de chaque branche du chemin. 

Les chemins s’excluant mutuellement, la probabilité d’être reçu est égale à la somme des 
probabilités d’être reçu pour tout chemin aboutissant à un état R (reçu). 
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4.4 Théorème de Bayes 


En reprenant l’équation 2 page 34 (section 4.2), on obtient la formule de Bayes : 


Pr{B/A) -- 

Equation 3 


Pr(A/B)Pr(B) 
Pr(A) 

formule de Bayes 


Le théorème est une forme développée de cette formule que nous introduisons maintenant. 
Considérons des événements A ..., A n tels qu’ils forment une partition de l’ensemble fondamen¬ 
tal E. 

Par définition, les A,- s’excluent mutuellement et leur union est E : 

n 

V(i*jUA i nA J = 0)- U A ; = E 

i = 1 

Soit B un événement quelconque 



De E = AjUA,u... uA n et de B n E = B, on tire B = Bn(A 1 uA 7 u...u A n ). 

Soit, par distributivité, B = (BnAj)u (B n A 7 ) u ... u C B n A n ). 

En remarquant que les 6nA ; sont exclusifs, puisque les A ; - le sont, et en appliquant la 3 eme règle 
du calcul des probabilités on obtient la formule dite des « probabilités totales » : 


Pr(B ) = Pr(5nA 1 )+/V(BnA 2 ) + ...+Pr(5nA, 7 ) 

Equation 4 : probabilités totales 

En appliquant le théorème de la multiplication : 

Pr(B ) = Pr(B/A l )Pr(A l ) + Pr(B/A 2 )Pr(A 2 ) + ... + Pr(B/A n )Pr(A n ) 

Pr(B/A i )Pr(A j ) 

Or, par la forme simple du théorème de Bayes, on a Pr(A/B) = - - 

D’où le théorème de Bayes : r ^ 


Pr(A/B) 


Pr(B/A i )Pr{A i ) 

Pr{B/A ] )Pr{A l ) + Pr(B/A 2 )Pr(A 2 ) + ... + Pr{B/A n )Pr(A n ) 

Equation 5 : théorème de Bayes 
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Exemple 1 

Reprenons l’exemple des résultats au concours des étudiants de Paris VI. 

Comme précédemment, soit R l’événement « un étudiant de Paris VI est reçu ». On a, en 
notant Cj, C 2 , C 3 les 3 anciens CHU Saint Antoine, Pitié et Broussais respectivement : 
Pr{ R) = Pr(RIC x )Pr(C{) + Pr{R/C 2 )Pr(C 2 ) + Pr(R/C 3 )Pr(C 3 ) 

[noter que c’est la même chose que la somme des probabilités des chemins de l’arbre, qui 
conduisent à un succès] 

Le théorème de Bayes permet de répondre à la question duale. Au lieu de chercher la pro¬ 
babilité d’obtenir un étudiant reçu sachant qu’il venait d’un CHU donné, on cherche la pro¬ 
babilité qu’un étudiant ait été inscrit à un CHU donné sachant qu’il a été reçu (probabilité 
des causes). 

Calculons la probabilité qu’un étudiant reçu soit issu du CHU Pitié-Salpêtrière. 


Pr(C 2 / R) = 


Pr(R/C 2 )Pr(C 2 ) 

PriR/C^PriC^ + Pr(R/C 2 )Pr(C 2 ) + Pr(R/C 3 )Pr(C 3 ) 


Avec Pr(C l ) = 0,25 ; Pr(C 2 ) = 0,50 ; Pr(C 3 ) = 0,25 ; 
et Pr(RIC x ) = 0,15 ; Pr(R/C 2 ) = 0,20 ; Pr(R/C 3 ) = 0,10. 


D’où Pr(C 2 / R) 


_ 0, 20 x 0, 50 _ 

0, 15 x 0, 25 + 0, 20 x 0, 50 + 0, 10 x 0, 25 


0,61 


Ce qui signifie que, dans ce cas, la probabilité qu’un étudiant appartienne à C 2 , s’il est re¬ 
çu, est plus grande que si l’on ne sait rien (probabilité a priori Pr(C 2 ) = 0,50). 

Cette façon de calculer les probabilités des causes connaissant les effets est essentielle en 
médecine. En effet, le problème du diagnostic peut être posé en ces termes. 

Exemple 2 

Considérons, pour illustrer notre propos, le problème du diagnostic d’une douleur aiguë de 
l’abdomen. Il s’agit d’un patient arrivant aux urgences pour un « mal au ventre ». 

Si l’on ne sait rien d’autre sur le patient (on n’a pas fait d’examen clinique ou complémen¬ 
taire), on ne connaît que les probabilités d’avoir tel ou tel diagnostic si on observe une dou¬ 
leur. 

Soient D j, D 2 et Z ) 3 les 3 diagnostics principaux (il y en a en fait au moins une douzaine) 
et exclusifs ; par exemple D l = appendicite, D 2 = perforation d’ulcère, D 3 = autres dia¬ 
gnostics. 

Soit un signe sj pour lequel on connaît Pr(si/D{), Pr(s [/D 2 ), et Pr(si/D 3 ). 

Par exemple, s i serait «présence d’une fièvre > 38,5°C » ; Pr(s i/D {) = 0,90 ; Pr(sy! 
D 2 ) = 0,30 ; et Pr(s j/D 3 ) = 0,10. 

Ces probabilités peuvent être estimées sur une population de patients en dénombrant le 
nombre de sujets ayant le diagnostic D j et présentant le signe sq. De même, on peut 
connaître Pr(D{), Pr(D 2 ) et Pr(D 3 ). 

Le problème diagnostique se pose comme celui de choisir par exemple le diagnostic le plus 
probable connaissant le signe sq ; pour ce faire, on calcule Pr(D |/.v |), Pr(D 2 /s\), Pr(D 3 / 
s |) et on retient le diagnostic qui a la plus grande probabilité : c’est l’application de l’ap¬ 
proche bayesienne au problème de l’aide au diagnostic. 
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4.5 Indépendance entre événements 


On dit que deux événements A et B sont indépendants si la probabilité pour que A soit réalisé n’est 
pas modifiée par le fait que B se soit produit. On traduit cela par Pr{A / B) = Pr{A). 



définition : v ' 

A et B sont indépendants si et seulement si Pr(A r\B) - Pr(A)Pr(B) . 

La symétrie de cette définition implique qu’on a aussi bien Pr{A IB) - Pr(A) (A est indépendant 
de B) que PrJB / A) = Pr{B) (JB est indépendant de A) : l’apparition d’un des deux événements 
n’influe pas sur l’apparition de l’autre. 

Note 

Ce qui est défini précédemment est l’indépendance de deux événements. Si on considère 
maintenant 3 événements A, B, C, on dira que ces 3 événements sont indépendants : 

1. s’ils sont indépendants 2 à 2 : A indépendant de B ; A indépendant de C ; et B indé¬ 
pendant de C 

2. et si Pr(A n B n C) = Pr(A)Pr(B)Pr(C). Cette condition n’est pas une consé¬ 
quence des précédentes. 


4.6 Indépendance, inclusion et exclusion de 
deux événements 


Considérons deux événements A et B. 


1. Si A c B (A est inclus dans B) : si A est réalisé, alors B aussi. 



Alors Pr(A n B) = Pr(A ) . 


D’où Pr(B/A) = = 1 et Pr(A/B) = 


Pr(A) 


Pr(AnB) _ Pr(A ) 
Pr(B) ~ Pr(B) 


A et B ne sont pas indépendants. 
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2. Si A n B = 0 (A et B sont exclusifs) : si A est réalisé, B ne peut pas l’être. 



Alors Pr(A n B) = Pr(0) = 0. 


D’où Pr(A/B) 


Pr(A n B) _ 0 

Pr(B ) “ Pr(B ) 


De même A et B ne sont pas indépendants. 


2013 - 2014 


Biostatistique - Carrat, Mallet, Morice 


£ 


faculté os meoecine 


k. 


39/179 







Probabilité Conditionnelle ; Indépendance et Théorème de Bayes 


40/179 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTÉ DE mÈDECME 

PIERRE AmARlÉ CURIE 


£ 


2013 -2014 



Evaluation de l’intérêt diagnostique des informations médicales 


Chapitre 5 

Evaluation de l’intérêt 
diagnostique des informations 
médicales 

5.1 Introduction 


La tâche essentielle des médecins est de traiter les patients. Pour prescrire un traitement, il faut sa¬ 
voir, plus ou moins précisément selon les cas, ce dont souffre le malade. Pour résumer en un seul 
terme un processus physiopathologique complexe, les médecins ont créé des concepts : les dia¬ 
gnostics. 

La recherche « du » diagnostic est donc la première étape de la consultation clinique. Pour parvenir 
au diagnostic, le médecin accumule des informations, dont certaines lui sont spontanément livrées 
par le patient (le motif de la consultation, les symptômes), d’autres doivent être recherchées mais 
sont disponibles immédiatement (les signes physiques), d’autres enfin sont d’obtention plus ou 
moins difficile et coûteuse (les résultats d’examens complémentaires). De nouvelles procédures 
diagnostiques apparaissent fréquemment : on a vu, par exemple, l’apparition des échographies, de 
la tomodensitométrie (scanner), de l’IRM, pour ne citer que le domaine de l’imagerie. Il n’est bien 
sûr pas question d’effectuer tous les examens complémentaires sur tous les malades : il faut donc 
préciser les indications de ces examens, ce qui repose sur l’évaluation de leur intérêt diagnostique. 
Avant d’aborder la méthodologie de l’évaluation, nous reviendrons sur certains concepts utilisés 
dans ce paragraphe. 


5.1.1 Le diagnostic 

On peut définir un diagnostic comme un concept résumant l’état d’un individu. Le terme de 
« diagnostic » est donc beaucoup moins précis qu’on pourrait le penser à première vue : on peut en 
général fournir plusieurs diagnostics pour un même état physiopathologique, les termes diagnos¬ 
tiques utilisés dépendant de l’aspect privilégié. Parmi ces aspects, on peut citer : 

— la symptomatologie 
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— la physiopathologie et l’étiologie 

— la conduite thérapeutique 

En pratique, la précision du diagnostic dépendra souvent des possibilités thérapeutiques : par 
exemple, on ne recherchera pas, en général, le virus responsable d’un syndrome grippal, surtout si 
on s’attend à ce que la maladie guérisse spontanément. 

D’un point de vue statistique, le diagnostic sera souvent considéré comme une variable aléatoire 
binaire : le patient souffre ou ne souffre pas de l’affection considérée, ou, exprimé autrement, le 
diagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notées M et 
M (maladie présente ou absente), ou D et D (diagnostic vrai ou faux). 


5.1.2 Les informations médicales 

On divise l’ensemble des informations médicales en signes cliniques et signes complémentaires. 
Les signes cliniques sont divisés en signes fonctionnels ou symptômes, décrits par le malade (spon¬ 
tanément ou par l’interrogatoire) et signes physiques, recherchés par le médecin. Les signes com¬ 
plémentaires peuvent être biologiques ou radiologiques. Leur intérêt peut être : 

— diagnostique (caractère malin ou bénin d’une tumeur) 

— thérapeutique (localisation précise d’une tumeur) 

— pronostique (extension ganglionnaire) 

D’un point de vue statistique, ces signes peuvent être représentés par des variables binaires (pré¬ 
sence ou absence d’un nodule sur une image) ou continues (cholestérolémie). 

Nous considérons ici le seul cas d’un signe binaire, présent (noté S) ou absent (noté S). Dans la 
suite, on considère que la présence du signe est évocateur de la maladie M. 

Si l’information est de type continu, on se ramène au cas binaire par l’introduction d’un seuil : d’un 
côté du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de l’autre côté du seuil, 
les valeurs sont dites pathologiques, et le signe binaire est présent. 


5.1.3 Situation expérimentale et estimation 

Quand on cherche à évaluer l’intérêt diagnostique d’un signe pour une affection, on recherche le 
signe chez des individus présentant ou non l’affection considérée. Deux situations expérimentales 
sont à envisager : 

— un échantillon représentatif d’une population est constitué. On pourra estimer, à partir de cet 
échantillon, toutes les probabilités d’événements par les fréquences observées correspon¬ 
dantes (cette manière de faire sera revue plus tard, page 78) ; 

— deux échantillons sont constitués, l’un représentatif des individus pour lesquels le diagnostic 
est vrai, l’autre représentatif des individus pour lesquels il est faux. Cette manière de procéder 
est souvent la seule possible en pratique, surtout quand la maladie considérée est rare. Il faut 
remarquer, cependant, qu’on ne peut plus estimer n’importe quelle probabilité par la fré- 
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quence observée correspondante ; ce point sera développé plus loin dans ce chapitre. 

Remarque : nous utilisons actuellement le mot estimation dans le sens à' approximation de la 
vraie valeur. Nous donnerons des définitions plus rigoureuses dans le chapitre 10 page 99. 


5.2 Les paramètres de l’évaluation 


5.2.1 Sensibilité et spécificité 

La sensibilité d’un signe pour une maladie est la probabilité que le signe soit présent si le sujet est 
atteint de la maladie considérée. 

Il s’agit donc de la probabilité conditionnelle qu’on peut noter : 

Sensibilité = Se =Pr(S / M) 

Un test diagnostic est donc d’autant plus sensible que les sujets atteints de la maladie présentent 
plus souvent le signe S. 

La spécificité d’un signe pour une maladie est la probabilité que le signe soit absent si le sujet n’est 
pas atteint de la maladie. 

De manière similaire, on a : 

Spécificité = Sp = Pr(S/M ) 

Un test diagnostic est donc d’autant plus spécifique que les sujets indemnes de la maladie pré¬ 
sentent moins souvent le signe S. 

Pour un examen « parfait », c’est-à-dire n’effectuant aucune erreur, les valeurs de la sensibilité et 
de la spécificité sont égales à 1. 

Si la présence du signe est définie par un « seuil de positivité », on observe que ces deux paramètres 
varient en sens inverse lorsqu’on fait varier ce seuil. Ceci explique qu’un seul de ces deux para¬ 
mètres ne suffise pas à évaluer un examen. Supposons par exemple qu’on s’intéresse au signe tem¬ 
pérature vis à vis de la grippe. On considère que le signe est présent si la température dépasse un 
certain seuil, par exemple 39°C. Si on augmente le seuil pour le porter à 40°C, la probabilité de 
dépasser le seuil (chez les sujets grippés) va diminuer, donc la sensibilité diminue. En revanche, la 
probabilité d’être en dessous du seuil (chez les sujets non grippés) va augmenter, donc la spécificité 
augmente. 

Un test diagnostique de bonne sensibilité conduit à un résultat positif chez presque tous les ma¬ 
lades. Il est donc utilisable pour un dépistage. Si le test possède une bonne spécificité, il conduit à 
un résultat négatif chez presque tous les non-malades. Il pourrait donc être utilisé en tant qu’exa- 
men de confirmation du diagnostic. 

Ces considérations sont bien sûr schématiques, d’autres éléments intervenant dans l’évaluation, 
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comme la fréquence de la maladie (prévalence), les risques liés à la maladie, à l’examen, l’exis¬ 
tence et les performances d’autres examens concurrents... 


5.2.2 Valeurs prédictives 

En pratique, quand un médecin reçoit le résultat d’un examen complémentaire, positif ou négatif, 
il ne sait pas si le patient souffre de l’affection qu’il cherche à diagnostiquer ou non, et les proba¬ 
bilités qui l’intéressent s’expriment de la manière suivante : quelle est la probabilité de présence 
de la maladie M chez ce patient, sachant que l’examen a donné un résultat positif (ou négatif) ? Ces 
probabilités sont appelées valeurs prédictives. Plus précisément, on a : 

• la valeur prédictive positive d’un signe pour une maladie est la probabilité que le sujet soit 
atteint de la maladie si le signe est présent ; 

• la valeur prédictive négative d’un signe pour une maladie est la probabilité que le sujet soit 
indemne de la maladie si le signe est absent. 

On peut noter ces paramètres : 

VPP = Pr(M/S ) 

VPN = Pr{M/S ) 

Comme les sensibilité et spécificité, les valeurs prédictives positive et négative varient en sens in¬ 
verse, et doivent donc être considérées simultanément. 


Les valeurs prédictives peuvent s’exprimer en fonction du couple sensibilité - spécificité, et de la 
fréquence de la maladie dans la population (cette probabilité Pr(M ) s’appelle la prévalence de la 
maladie). Il suffit d’utiliser le théorème de Bayes : 


VPP = Pr(M/S ) 


Pr(S/M)Pr(M ) 


Pr(S/M)P(M ) + Pr(S/M)Pr(M) 
Se x Pr(M ) 

Se x Pr(M) + (1 - Sp) x ( 1 - Pr(M )) 


VPN = Pr(M/S ) = 


Pr(S/M)Pr(M ) 


Pr(S/M)P(M ) + Pr(S/M)Pr(M ) 
Sp x (1 - Pr(M)) 

( 1 - Se) x Pr(M) + Sp x ( 1 - Pr(M )) 


5.2.3 Comparaison des deux couples de paramètres 

En situation clinique, on a vu que les valeurs prédictives correspondent aux préoccupations des mé¬ 
decins, et elles pourraient sembler les « meilleurs » paramètres d’évaluation. Pourtant, en réalité, 
c’est la sensibihté et la spécificité qui sont le plus souvent utilisées pour évaluer les examens com- 
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plémentaires. La raison en est la suivante : 

la sensibilité d’un examen pour une affection repose sur la définition de la population des 
« malades », et est donc caractéristique de la maladie et du signe. En particulier, elle n’est pas sus¬ 
ceptible de varier d’un centre à l’autre (d’un service hospitalier spécialisé à une consultation de mé¬ 
decin généraliste, par exemple). Le même raisonnement peut s’appliquer à la spécificité, si on 
considère qu’elle repose aussi sur la définition de la maladie. 

Les valeurs prédictives, au contraire, sont fonctions des proportions respectives de malades et de 
non-malades dans la population (de la pré valence de la maladie). Or ces proportions sont dépen¬ 
dantes des centres considérés ; les valeurs prédictives des examens varient donc d’un centre à 
l’autre pour une même maladie, ce qui explique qu’elles sont moins utilisées comme paramètre 
d’évaluation, même si elles sont intéressantes à connaître pour un centre donné. 


5.2.4 Choix d’un seuil : courbes ROC 

Lorsqu’un examen fournit des résultats de type continu, il faut déterminer le meilleur seuil entre 
les valeurs pathologiques et les valeurs normales. L’idéal serait d’obtenir une sensibilité et une spé¬ 
cificité égales à 1. Ce n’est généralement pas possible, et il faut tenter d’obtenir les plus fortes va¬ 
leurs pour ces deux paramètres, sachant qu’ils varient en sens inverse. 

On s’aide pour ce choix d’un outil graphique, la courbe ROC (Receiver Operating 
Characteristics). Une courbe ROC est le tracé des valeurs de la sensibilité Se en fonction de 1-Sp. 
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1-Sp 


Cet exemple (tiré du livre de A. J. Valleron) montre 3 courbes ROC correspondant à 3 examens dif¬ 
férents. 

La courbe A est celle obtenue pour l’exemple précédent de la température et de la grippe. Le point 
de la courbe le plus proche du coin supérieur gauche du carré contenant la courbe (ici Se = 0,65, 
Sp = 0,75, et température = 39°C)) est celui qui permet d’obtenir un bon compromis entre sensibi¬ 
lité et spécificité (le coin supérieur gauche correspond à Se = Sp = 1). En réalité, on ne choisira pas 
toujours ce point, car il faut aussi tenir compte des coûts des erreurs diagnostiques : il peut par 
exemple être beaucoup plus grave de ne pas détecter une maladie, que de traiter à tort. 

La courbe B correspond à un examen qui n’apporte rien au diagnostic, puisque les variables signe 
et maladie sont ici indépendantes : Se = Pr(S/M ) = 1 - Sp = Pr(S/M ) 

La courbe C correspond à un bon critère diagnostic pour lequel on peut obtenir simultanément des 
valeurs élevées de sensibilité et de spécificité. 
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5.3 Estimation des paramètres de l’évaluation 


5.3.1 Un échantillon représentatif 

5.3.1.1 Les données 

Quand on a un échantillon représentatif d’une population, on peut résumer les données de l’expé¬ 
rience par un tableau de contingence 2x2, sur lequel sont indiqués les effectifs suivants : 

— VP (Vrais Positifs) : ce sont les individus malades ( M ) et chez lesquels le signe est présent 
{^}; 

— FP (Faux Positifs) : la maladie est absente { M } et le signe est présent {S } ; 

— FN (Faux Négatifs) : la maladie est présente { M ) et le signe est absent { S } ; 

— VN (Vrais Négatifs) : la maladie est absente {M } et le signe est absent { S }. 


Tableau 1 



M 

M 

S 

VP 

FP 

s 

FN 

VN 


5.3.1.2 Estimation de la sensibilité et de la spécificité 

Par définition, sensibilité = Se = Pr(S / M) 

On estime cette probabilité conditionnelle par le rapport des effectifs correspondants sur le tableau 
de contingence observé : 


VP + FN 

Note : On notera de manière identique, suivant un usage établi, les paramètres vrais, qui sont des 
probabilités conditionnelles, et leurs estimations, qui sont des rapports d’effectifs observés. 

Spécificité = Sp = PrCS/M) * ÿfijfp 

Par exemple, calculons les estimateurs de ces paramètres dans le cas où on cherche à diagnostiquer 
un diabète à partir d’un signe de la forme « la glycémie mesurée à jeun est supérieure à ... »). Pour 
deux seuils donnés S | et S 2 , on obtient les tableaux de contingence ci-dessous : 

a. Seuil S j 
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Tableau 2 



M 

M 

S 

90 

200 

s 

10 

300 


b. Seuil S 2 


Tableau 3 



M 

M 

S 

50 

25 

S 

50 

475 


On peut estimer les sensibilités et spécificités correspondant aux deux seuils par : 

Se! * 90 / 100 = 0,90 ; Spj » 300 / 500 = 0,60 
Se 2 « 50 / 100 = 0,50 ; Sp 2 » 475 / 500 = 0,95. 

On retrouve ici le fait que sensibilité et spécificité varient en sens inverse. 

On constate d’autre part que le seuil S! correspond à une bonne sensibilité (l’examen est positif 
chez 90 % des malades), mais à une spécificité médiocre (l’examen est positif chez 40 % des 
« non-malades ») ; il peut donc être utilisé pour un examen de dépistage, le diagnostic devant être 
confirmé ultérieurement par un examen plus spécifique. 

Le seuil S 2 , en revanche, induit un test d’une sensibilité qui pourrait être jugée trop faible pour un 
examen de dépistage. En revanche, sa spécificité peut être acceptable pour un examen de confir¬ 
mation. 

5.3.1.3 Estimation des valeurs prédictives 

Les estimations s’obtiennent à partir du même tableau des données : 

VP? = PrtM/S) * 

VPN = J>*»/S)«ÿf£L} 

Par exemple, pour les tableaux de contingence vus ci-dessus, on a : 

VPP, « 90 / 290 = 0,31 ; VPN! « 300 / 310 = 0,97 
VPP 2 « 50 / 75 = 0, 67 ; VPN 2 « 475 / 525 = 0,90 

Ces résultats peuvent s’interpréter ainsi : en affirmant le diagnostic sur la base de la positivité de 
l’examen, on se trompe dans 69 % des cas avec le seuil S! et 33 % des cas avec le seuil S 2 ; et en 
éliminant le diagnostic en constatant la négativité de l’examen, on se trompe dans 3 % des cas avec 
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le seuil S j et 10 % des cas avec le seuil S 2 . 


5.3.2 Deux échantillons représentatifs 

L’inconvénient du schéma expérimental ci-dessus (un seul échantillon) est que, si la maladie est 
peu fréquente ou rare, il faut constituer un échantillon de très grande taille pour obtenir un nombre 
suffisant de malades. Les non-malades, au contraire, seront « trop » nombreux. C’est pourquoi on 
constituera souvent, en pratique, deux échantillons, un échantillon de malades et un échantillon de 
non-malades. On peut encore résumer les résultats par un tableau comme celui du tableau 1 page 
47, mais ce tableau doit être interprété différemment, les proportions respectives des malades et 
non-malades ne correspondant plus à la réalité : le rapport entre le nombre de malades et le nombre 
de non-malades du tableau dépend des tailles respectives choisies pour les deux échantillons, et n’a 
aucun lien avec la fréquence de la maladie dans la population (la prévalence). 

On peut toujours estimer la sensibilité et la spécificité comme ci-dessus. En effet, la sensibilité par 
exemple est estimée uniquement à partir de VP et FN, donc de la répartition des malades entre ceux 
qui présentent le signe et les autres. Or l’échantillon des malades respecte cette répartition. 

En revanche, l’estimation précédente des valeurs prédictives utilisait la répartition entre malades 
et non malades, que le tableau actuel ne représente pas correctement. 

L’estimation des valeurs prédictives reste cependant possible à condition de connaître la préva¬ 
lence de la maladie Pr{M). On utilisera les formules introduites section 5.2.2 page 44 : 

Vpp = _ Se x Pr(M ) _ 

Se x Pr{M) + ( 1 - Sp) x ( 1 - Pr{M )) 

Vp N = Sp x (1 -Pr(M)) 

( 1 - Se) x Pr(M ) + Sp x ( 1 - Pr(M )) 

On remplacera dans ces formules la sensibilité et la spécificité par leurs estimations. 
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Chapitre 6 

Variables aléatoires 

6.1 Définition d’une variable aléatoire 


Considérons un ensemble fondamental E correspondant à une certaine expérience. Les éléments 
de E, résultats possibles de l’expérience, ne sont généralement pas des nombres. Il est cependant 
utile de faire correspondre un nombre à chaque élément de E , en vue de faire ensuite des calculs. 
Pour un jet de dé, il semble naturel de faire correspondre à la face obtenue par le jet, le nombre de 
points qu’elle porte, mais ce n’est pas une obligation. Si on jette 2 dés, on s’intéressera par exemple 
à la somme des points obtenus. Pour une carte à jouer, il faut convenir d’une valeur pour chaque 
carte. 

Une variable aléatoire X, sur un ensemble fondamental E , est une application de E dans 9Î : à tout 
résultat possible de l’expérience (à tout élément de E ), la variable aléatoire X fait correspondre un 
nombre. 

Lorsque E est fini ou infini dénombrable, toute application de E dans 91 est une variable aléatoire. 
Lorsque E est non dénombrable, il existe certaines applications de E dans 91 qui ne sont pas des 
variables aléatoires. En effet, la définition rigoureuse d’une variable aléatoire X impose que tout 
intervalle de 91 soit l’image d’un événement de E par l’application X. Cette condition est vérifiée 
pour toute application X si E est fini ou dénombrable, puisque toute partie de E est un événement. 
Ce n’est plus vrai si E est non dénombrable. Heureusement, les applications choisies naturellement 
sont des variables aléatoires. 

On parle de variable aléatoire discrète lorsque la variable est une application de E dans un sous- 
ensemble discret de 91, le plus souvent N ou une partie de N. On parle sinon de variable aléatoire 

continue. 

Pour un nombre réel a donné, l’événement constitué de tous les résultats 4 d’expérience tels que 
X(4) = a est noté [X(4) = a], ou, en abrégé, X = a. 

Pour deux nombres réels a et b (a < b), l’événement constitué de tous les résultats ç d’expérience 
tels que a < X(4) < b est noté [a <X(b)< b] ou, en abrégé, a <X < b. 

Si X et Y sont des variables aléatoires définies sur le même ensemble fondamental E, et si k est 
une constante, on peut montrer que les fonctions suivantes sont aussi des variables aléatoires : 

(X + y)(Ç) = x(4) + 7(4) (X + *)(4) = x(4) + k 
(fcx)(4) = *x(4) (X7)(4) = x(4) 7(4) 

pour tout élément 4 de E. 
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6.2 Variables aléatoires finies 


Considérons maintenant le cas le plus simple d’une variable aléatoire finie, que nous généralise¬ 
rons dans un second temps à une variable aléatoire infinie dénombrable, puis continue. 

Soit X une variable aléatoire sur un ensemble fondamental E à valeurs finies : 

X(E) = {x h x 2 , ...,x n }. 

X(E ) devient un ensemble probabilisé si l’on définit la probabilité Pr(X = x- L ) pour chaque x t , que 
l’on note p r L’ensemble des valeurs p t = Pr(X = x i ) est appelé distribution ou loi de probabilité de 
V. 

Puisque les p t sont des probabilités sur les événements {X=x\, X=x 2 , ..., X=x n }, on a : 

n 

(Vi),Pi> 0 et ^ Pi = 1 • 

i = 1 

6.2.1 Représentation d’une loi de probabilité finie 

On peut représenter la loi de probabilité /;■ par une table : 


x \ 

x 2 


x n 

P\ 

P 2 


Pn 


Ou par un diagramme en bâtons : 


Pi 



où la hauteur du bâton positionné en x t a pour valeur p r 


6.2.2 Espérance mathématique d’une variable finie 

L’espérance mathématique cherche à traduire la tendance centrale de la variable aléatoire. Il s’agit 
d’une moyenne où chacune des valeurs x t intervient d’autant plus que sa probabilité est importante, 
c’est-à-dire d’un barycentre ou d’un centre de gravité. On définit alors la moyenne théorique (par¬ 
fois aussi appelée vraie), ou espérance mathématique d’une variable X par 

n 

Px = E ( x ) = X X Pi = X \ P \ + X 2 P 2 + - + X n Pn • 
i = 1 
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H X peut être notée p s’il n’y a pas de confusion possible. 

Exemple 

On considère l’expérience qui consiste à jeter deux dés parfaitement équilibrés. L’espace 
fondamental est constitué par l’ensemble des couples ordonnés 
£ = {(1,1), (1,2), (1,3),..., ( 6 , 6 )} 

C’est un espace équiprobable (tous les couples résultats élémentaires du tirage sont équi¬ 
probables). 

Considérons la variable aléatoire définie comme suit : soit r = (a, b) un élément quel¬ 
conque de E ; on pose X(r ) = X(a, b) = max(a, b) 

(la valeur de X(r) est égale àa si a>b et àb dans le cas contraire). 

X est une variable aléatoire sur E avec X(E) = {1, 2, 3, 4, 5, 6 }, 

et la loi de probabilité 

Pl = Pr(X = l) = Pr({(l, 1)}) = 1/36 ; 

p 2 = Pr{X = 2) = Pr({(l, 2), (2, 1), (2, 2)}) = 3/36 ; 

p 3 = 5/36 ; p 4 = 7/36 ; p=, = 9/36 ; pç, = 11/36. 

Soit : 


Xi 

1 

2 

3 

4 

5 

6 

Pi 

1/36 

3/36 

5/36 

7/36 

9/36 

11/36 


E(X) = 1/36 + 6/36 + 15/36 + 28/36 + 45/36 + 66/36 = 161/36 » 4,47 



Théorèmes 

1. Soit X une variable aléatoire et k une constante réelle. On a : 

E(kX) = kE(X) 

E{X + k) = E(X) + k 

2. Soient X et Y deux variables aléatoires définies sur le même espace fondamental E. 
On a : 

E{X + Y) = E{X) + E{Y) 
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Variables aléatoires 


On en déduit que pour n variables aléatoires X,, définies sur le même espace 
fondamental : 


I*. 

Vj = i J 


= 


i = 1 


(l’espérance de la somme est la somme des espérances). 


Exemple 

Considérons l’expérience du jeu de dés où E = {1, 2, 3, 4, 5, 6 } uniforme (équiprobable). 
Soit X(E) une première variable aléatoire définie par 
X(E) = {1,2, 3, 4, 5, 6 } 

et Pxi = Px 2 = Px3 = Px4 - Px5 -Px6= 

E(X) = (1+2 + 3+ 4 + 5 + 6)76 = 21/6 


Soit Y(E) une seconde variable aléatoire telle que 
Y(E) = 1 si le chiffre tiré est impair 
Y(E) = 2 si le chiffre tiré est pair. 

Donc Y{E)={ 1,2} 
pYi = Pr{{ 1, 3, 5}) = 1/2 
pY 2 = Pr({ 2, 4, 6 }) = 1/2 
E(Y) =1/2+1 = 1,5 

Calculons maintenant la loi de (X + Y){E) 

ÇX + Y)(r) = X(r) + Y(r) 

Pour r = 1, (X + y)(l) = X(l) + y(l) =1 + 1 = 2 
Pour r = 2, (X + y)(2) = X(2) + y(2) = 2 + 2 = 4 

Pour r = 3, (X + y)(3) = X(3) + y(3) = 3 + 1=4 

Pour r = 4, (X + y)(4) = X(4) + y(4) = 4 + 2 = 6 

Pour r = 5, (X + y)(5) = X(5) + y(5) = 5 + 1 = 6 

Pour r = 6, (X + Y)( 6) = X(6) + y(6) = 6 + 2 = 8 

On a donc (X + Y)(E) = {2, 4, 6, 8} et 

Pr((X + Y) = 2) = 1/6, Pr((X + Y) = 4) = 2/6, Pr((X + Y) = 6 ) = 2/6, Pr((X + y) = 8 ) = 1/6 
C(X + y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6 

Or on retrouve bien ce résultat en utilisant E(X) + E( Y) = 21/6 + 3/2 = 30/6. 

Remarque 

Lorsqu’on doit calculer l’espérance d’une fonction g(X), il faut étudier la variable Y = g(X) 
dont les valeurs sont y j = g/vj), y 2 = g(xi ),..., y n = g(x n ). Alors : 

Pr(Y = y i ) = Pr[g(X) = g(x i )] 

Si g est une fonction monotone, on a g(X) = g(xj) <=> X = x t 

D’où Pr(Y = y t ) = Pr(X = x t ) = p t 

Donc : n n 

E{g{X)) = E(Y) = Y j y i Pr{Y = y i ) = ^ g(x l )p l 

i=i i=i 

On montre que ce résultat reste valide, même si g n’est pas monotone. 

9 9 

Par exemple, si l’on doit calculer E(X), on considère la variable Y = X dont les valeurs 

9 9 9 

sont j i = X\ , y 2 = x 2 ,..., y n = . Alors : 
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Variables aléatoires 


n n 

E(X 2 ) = E{Y ) = Y j y i Pr{Y = y i ) = £ x] Pl 


i = 1 i = l 

On constate que pour calculer l’espérance d’un carré, il faut élever les valeurs x t au carré, 
mais pas les probabilités Pi associées. 


6.2.3 Variance et écart-type d’une variable finie 

Après avoir traduit la tendance centrale par l’espérance, il est intéressant de traduire la dispersion 
autour de l’espérance par une valeur (la variance ou l’écart-type). 

La variance (vraie ou théorique) de X, notée var(X) ou o x , est définie par : 

<4 = var(X) = E((X-p x ) 2 ) où p x = E(X) 

L’écart-type de X, noté g(X) ou <j x , est défini par g(X) = <j x = Jvar(X) . 

<j x peut être notée g s’il n’y a pas de confusion possible. 

Remarques : 

2 2 

1. On démontre facilement que va r( X) = E(X ) - p x 

En effet : n n 

E ((X~ \i x ) 2 ) = X ( x i ~ Vx) 2 Pi = 2 W' + &)Pi 

1=1 1=1 
n n n 

E({X-\i x ) 2 ) = ^ x 2 Pi - 2p x ^ x jPi + pj X p ‘ 

i = 1 i = l i = 1 

n 

E{{X-p x f) = ^xf Pi -2pl+4 = E{X 2 )-p 2 x 

o i = 1 

2 . o x > 0, par définition 

3. Soit X une variable aléatoire de moyenne p et de variance g 2 . 

X — u 

On définit la variable centrée réduite par Y = -- . 

G 

'y 

On peut montrer facilement (faites l’exercice) que E(Y) = 0 et var(Y) = E(Y ) = 1. 

4. Si a est une constante, on montre que var{X + a) = var(X) et var(aX ) = a var(X). 


6.2.4 Loi de probabilité produit 

Soient X et Y deux variables aléatoires finies sur le même espace fondamental E ayant pour image 
respective : 

X{E) = {x h x 2 , ...,x n ] 
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Variables aléatoires 


Y(E)= {y h y 2 , -,y m }• 

Considérons l’ensemble produit 
X{E)xY{E ) = {(^i, Ji), (x h y 2 ), ..., (x n , y m )} 

(ensemble des couples (jq, y.) pour i = 1 ,n et j = 1 , m) 

Cet ensemble produit peut être transformé en ensemble probabilisé si on définit la probabilité du 
couple ordonné (jq, yj) par Pr([X = [Y = y'j]) que l’on note p xi y j. Cette loi de probabilité 
de X, Y est appelée distribution jointe de X et Y. 


X 

Xl 

x 2 

*3 


x n 

Z *. 

i = 1, n 

y\ 

P x l,yl 

Px2,y 1 




P y 1 

y 2 

P x\,y2 





Py 2 








ym 

Pxl,ym 






I yj 

7=1, m 

Px 1 

Px 2 




1 


m n 


Les probabilités p xi = £ P xhyj cl P yj = 'Zl’xi.yj 

7=1 ;=1 

sont souvent appelées lois de probabilité marginales de X et de Y. Il s’agit simplement de leurs dis¬ 
tributions. 

La loi de probabilité p x i^ y j possède, bien entendu, les propriétés d’une loi : 


L p xiyj >oyij 

n m 

2 - Z = 1 

i = Ij = 1 

Soient et p 7 les espérances de X et de Y, <j x et <j y leurs écart-types. On montre facilement que 
vcir(X + Y) = <j x 2 + <j y 2 + 2 cov(X, Y), où cov(X, Y) représente la covariance de X et Y et est dé¬ 
finie par : 

n m 

cov(X, Y) = E[(X- p^)(L- p r )] = Yj Tj (x i-Yx)(yj-YY)Pxi,yj 

1 = 17=1 

De même que pour la variance (voir section 6.2.3), on a : 
cov(X, Y) = E{X Y) - p x p Y 
La covariance de X et Y se note aussi a XY . 


Une notion dérivée de la covariance est celle de corrélation entre X et Y, définie par : 


P(X, Y) = 


cov(X, Y) 
°X°Y 
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Variables aléatoires 


On peut vérifier que 
P(X, Y) = p(Y,X) 

-l<p(X,Y)<l 
P(X, X) = 1 

p (aX + b, cY + d) = p(A, Y) si a et c non nuis 


6.2.5 Variables aléatoires indépendantes 

Soient X et Y deux variables aléatoires sur un même espace fondamental E.X et Y sont indépen¬ 
dantes si tous les événements X = x t et Y = yj sont indépendants : 

Pr([X = x { ] n [y = y^) = Pr{X = x t ) ■ Pr(Y = y'j) pour tous les couples (i,j). 

Autrement dit, si p xi et p y j sont les distributions respectives de X et Y, les variables sont indépen¬ 
dantes si et seulement si on a 
P xi,yj ~ P xiP yj 

(la probabilité conjointe est égale au produit des probabilités marginales). 

Il en découle les propriétés importantes suivantes : si X et Y sont indépendantes, on a (attention la 
réciproque n’est pas toujours vraie) 

1. E(XY) = E{X)E{Y) 

2. variX + Y) = var(X) + var(Y) 

3. coviX , Y) = 0 et p(X, Y) = 0 


6.2.6 Fonction de répartition 

Si X est une variable aléatoire, on définit sa fonction de répartition F(x) par 
F(x) = Pr(X < x) pour tout x e 91 

Si X est une variable aléatoire discrète on a F(x) = ^ Pr(X = x t ) = ^ p t 

Xj<X Xj<X 

Dans tous les cas, E(x) est une fonction monotone croissante, c’est-à-dire F(a) > F(b) si a > b 
De plus 

lim F(x) = 0 et lim F(x) = 1 

X —> -CO x —» CO 


2013 - 2014 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE fDEOECinE 


£ 


57/179 



Variables aléatoires 


F*tv) k 

1 

0.95 

0.85 

0.7 


Fonction de répartition 


0.5 

0.3 



Cet exemple montre la distribution de probabilités d’une variable aléatoire finie et la fonction de 
répartition correspondante. La fonction de répartition est une fonction en escalier. Les discontinui¬ 
tés se produisent pour les valeurs x possédant des probabilités non nulles. Pour chacune de ces va¬ 
leurs de x, la hauteur d’une discontinuité est la probabilité de x. 


6.3 Variables infinies dénombrables (hors 
programme) 


Tout ce qui a été vu précédemment dans le cas où E est fini (E = {sq, s 2 , -, s n }) se généralise 
(nous ne verrons pas les démonstrations) au cas où E est infini dénombrable ; on aura par exemple 
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Variables aléatoires 


00 

Vx = E ( X ) = X X i p i 

i = 1 

La somme converge à l’infini vers E(X), toutes les autres propriétés sont conservées, les sommes 
devenant des séries. 


6.4 Variables aléatoires continues 


La généralisation au continu est délicate et même difficile si on ne dispose pas d’outils mathéma¬ 
tiques hors du champ de ce cours. 

Nous nous contenterons de procéder par analogie avec le cas discret. 

Une variable aléatoire X dont l’ensemble image X(E) est un intervalle de 91 est une variable aléa¬ 
toire continue (continue par opposition à discrète, cf supra). 

Rappelons que, par définition d’une variable aléatoire, a <X< b est un événement de E dont la 
probabilité est bien définie. 

On définit la loi de probabilité de X, ou distribution de X, à l’aide d’une fonction//*;), appelée den¬ 
sité de probabilité de X, telle que 

r b 

J f(x)dx = Pr(a<X<b ) 

a 

Remarques 

1. Si/est donnée, la probabilité Pr(a < X < b) est la surface sous la courbe entre a et b 



2 . Le passage du discret au continu transforme les sommes Z en intégrales J et p i enf(x)dx. 
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Variables aléatoires 


Ainsi, soit X une variable aléatoire discrète et sa distribution 



La formule Pr{x k <X< x n ) = ^ p t est analogue à Pr(a <X<b) = J f(x)dx 

J a 

i — le 

En utilisant cette analogie, on admettra les définitions suivantes pour une variable aléatoire X, 
continue, de distribution f(x) : 

1 . f(x) > 0 (analogue à p t > 0 ) 

2 . J f(x)dx = 1 (analogue à = 1 ) 

9i i 

3. \i x = E(X ) = jxf(x)dx (analogue à ) 

2 r 2 ! ? 

4. <j x = var(X) = J {x- p x ) f{x)dx (analogue à ^(v-- \i x ) p { ) 

5. = var(X) = |jc 2/v ' ’ 2/ 1 ' ^ ’ 2 2 


SR 


~f(x)dx - p x (analogue à IV Pi - bv) 

i 

6. g(X) = <j x = Jvar(X) 

7. F(x) = Pr(X<x) = | /(t)Jt (analogue à ^ p t ) 


Xi < X 


Les propriétés de la fonction de répartition données section 6.2.6 page 57 sont conservées : 
fonction monotone croissante, partant de 0 pour je—»-oo et atteignant 1 pour je—»+co. 

r b 

8 . Pr(a < X < b) = j f(x)dx = F(b) - F(a) 
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Variables aléatoires 



Cet exemple montre la densité de probabilité et la fonction de répartition d’une certaine variable 
aléatoire continue. La probabilité de l’intervalle [a b] est la surface sous la courbe de densité limi¬ 
tée par cet intervalle. C’est aussi la différence des hauteurs F(b)-F(a) si on utilise la fonction de 
répartition. Contrairement au cas des variables discrètes, la fonction de répartition est ici continue. 

Pour résumer l’analogie entre le cas discret et le cas continu, un point du domaine discret corres¬ 
pond à un intervalle dans le cas continu, la somme discrète correspond à l’intégrale. 


6.5 Extension de la notion de variable 
aléatoire 


Une variable aléatoire, telle qu’elle est définie dans ce chapitre, ne peut prendre que des valeurs 
numériques. 

Il est pourtant souvent pratique de s’intéresser directement aux résultats d’une expérience, qu’ils 
soient numériques ou non, c’est à dire d’éviter le codage numérique de ces résultats. Par abus de 
langage, dans la suite du cours, on pourra parler de variables aléatoires alors qu’il s’agit de résultats 
d’expérience. 

Dans ce contexte, la classification antérieure des variables (discrètes ou continues) doit être 
étendue : 
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Variables aléatoires 


Variables quantitatives 

variables dont les valeurs sont numériques. C’est l’unique possibilité dans le cas de va¬ 
riables aléatoires au sens strict. 

On distingue deux types de variables quantitatives : 

• variables discrètes, dont les valeurs sont discrètes, en général des nombres entiers. 
Exemple : nombre d’étudiants dans un amphi. 

• variables continues, pour lesquelles toutes les valeurs sont possibles, au moins sur un 
intervalle. Exemples : le poids ou la taille. 

Variables qualitatives 

Variables dont les valeurs ne sont pas numériques. 

On en distingue deux types : 

• variables ordinales, dont les valeurs peuvent être ordonnées. Exemple : intensité 
d’une douleur qui peut aller de absente à très intense. 

• variables catégorielles ou nominales, dont les valeurs ne peuvent pas être ordonnées. 
Exemple : couleur des yeux. 
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Chapitre 7 

Exemples de distributions 


7.1 Lois discrètes 


Les lois décrites ici ne concernent que des variables dont les valeurs sont des nombres entiers. 


7.1.1 Loi de Bernoulli 

On considère une expérience n’ayant que deux résultats possibles, par exemple succès et échec (ou 
présence et absence d’une certaine caractéristique). On introduit la variable aléatoire X qui associe 
la valeur 0 à l’échec (ou à l’absence de la caractéristique) et la valeur 1 au succès (ou à la présence 
de la caractéristique). Cette variable aléatoire est appelée variable de Bernoulli. 

Distribution de X 

Appelons n la probabilité de l’événement succès : 

Pr({ succès}) = Pr{X = 1) = n 
d’où 

Pr({échec}) = PrÇX = 0) = 1 - n 

Espérance de X 

p x = E(X) = £ Xi Pr{X = jc f ) = 1 x Pr{X = 1) + 0 x Pr\X = 0) = Tl 

Variance de X 

4 = var(X) = £[(X-p x ) 2 ] = £(V 2 ) - 4 
4 = [1 2 xPriX= l) + 0 2 xPr(X = 0)]-n 2 

4 = n-n 2 = n(i - n) 


7.1.2 Loi binomiale 

Définition 

Soient les épreuves répétées et indépendantes d’une même expérience de Bernoulli. 
Chaque expérience n’a que deux résultats possibles : succès ou échec. Comme précédem- 
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Exemples de distributions 


ment, appelons n la probabilité de l’événement élémentaire succès. A cette expérience 
multiple on associe une variable aléatoire X qui mesure le nombre de succès obtenus. 

Distribution de X 

On montre aisément que la probabilité d’avoir k succès lors de n épreuves répétées est 

P(X = k pour n essais) = — — n A ( 1 - n)" k 
Rappel k\(n-k)l 

n\ = 1 x 2 x ... x 77 pour tout n entier positif 
0 ! = 1 par définition 

Remarques 

a. La probabilité de n’avoir aucun succès au cours de n épreuves (k = 0) est (l-fl)” ; la 
probabilité d’avoir au moins un succès est donc 1 - (l-II)” (un succès ou plus) 

n i fri\ k 

b. —- 7 T 7 est souvent noté ou C„ 

k\(n - k)\ Vÿ 

Les ^ s’appellent coefficients du binôme. 


En effet ils interviennent dans le développement du binôme selon la formule 


c. 


(« + *)“= £(")«”-V 

r = 0 

Exercice : 

4 4 3 2 2 3 4 

utiliser cette formule pour vérifier que (a + b) = a +4 a b + 6 a~b~ + 4 ab + b 

En appliquant la formule du binôme précédente on retrouve que la somme des proba¬ 
bilités pour toutes les valeurs de X est égale à 1 : 

n 

£ f n W(i -n) n ~ k = [n + (i-n)f = i n = î 

k 

k = 0 


Exemples 


1. On jette 6 fois une pièce bien équilibrée ; on suppose que face est un succès. On a donc 
fl = 1/2 et 77 =6 


a. Probabilité que l’on ait exactement 2 faces 


Pr(2 faces parmi 6 jets) 
Pr (2 faces parmi 6 jets) 


6! élè 2 m 4 _1 x2x3x4x5x6 1 1 

2!4! ~ 1x2x1x2x3x4 416 

5x6 _ 15 _ 15 

2x4x 16 4x16 _ 64 


b. Probabilité d’avoir 4 faces ou plus (au moins 4 faces) 

C’est aussi la probabilité d’avoir au plus 2 piles (0, 1 ou 2 piles) 


Pi = Pr (4 faces) = ^ ■ (i)* ■ (|)" 


Ix2x3x4x5x6 1 1 

lx2x Ix2x3x4 ' Î6 ’ 4 


15 

64 
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Exemples de distributions 


p s = Pr( 5 faces) = 

p 6 = Pr(6 faces) = § • Q) ■ Q) 


Pr (au moins 4 faces) = p 4 + p 5 + p 6 


Ix2x3x4x5x6 

Ix2x3x4x5 

_ 1 _ 

64 

15 _6 j_ _ n 

64 + 64 + 64 “ 32 


_i_ î 
32'2 


_6 

64 


2. On jette 7 fois un dé équilibré et on considère que tirer 5 ou 6 est un succès. Calculer 
a. la probabilité pour qu’on ait 3 succès exactement 


Pr( succès) = Pr({5, 6}) = ^ 
Pr(3 succès) = jyJQjf) 


1 

3 

560 

2187 


b. la probabilité de n’avoir aucun succès 


Pr (aucun succès) = (l-fl) 


7 



128 

2187 


Propriétés 

La fonction de probabilité Pr(X= k ) dépend des 2 paramètres (ou constantes) n et n. C’est 
une distribution discrète qui prend les valeurs suivantes : 


k 

0 

1 

2 


n 

Pr(X= k) 

(i-ny ! 

(”)(i -n)" _1 n 

Q(i-nf- 2 n 2 


n ,! 


On dit que X est distribuée selon une loi binomiale B(n, n). 
On peut montrer que 


Distribution binomiale B(n, II) 

Espérance 

p = nll 

Variance 

g 2 = 7?n(l - n) 

Ecart-type 

g = V«n(i - n) 
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Exemples de distributions 


7.1.3 Loi de Poisson 


La loi de Poisson (due à Siméon Denis Poisson en 1837) est la loi du nombre d’événements observé 
pendant une période de temps donnée dans le cas où ces événements sont indépendants et faible¬ 
ment probables. Elle peut s’appliquer au nombre d’accidents, à l’apparition d’anomalies diverses, 
à la gestion des files d’attentes, au nombre de colonies bactériennes dans une boîte de Pétri, etc. 


Définition 

Soit X la variable aléatoire représentant le nombre d’apparitions indépendantes d’un évé¬ 
nement faiblement probable dans une population infinie. La probabilité d’avoir k appari¬ 
tions de l’événement est 

PriX = k) = e ^ 

Cette loi dépend d’un paramètre k, nombre réel strictement positif. 

Les nombres k possibles sont toutes les valeurs entières 0, 1,2, etc. Cependant, lorsque k 
est suffisamment grand, la probabilité correspondante devient extrêmement faible. 

Propriétés 

• On peut montrer que 


Loi de Poisson (p{k) 

Espérance 

p = k 

Variance 

2 i 

a = À 

Ecart-type 

a = Jk 


f\j À. 

La démonstration utilise le fait que V — = e 

k\ 

k = 0 

Si deux variables aléatoires indépendantes X j et X 2 sont distribuées selon des lois de 
Poisson de paramètres Â| et k 2 , alors la variable X \+X 2 est distribuée selon une loi de 
Poisson de paramètre ki+k 2 . 


Remarques 

Si on connaît la probabilité de n’observer aucun événement Pr(X=0) = p : 

• D’après la formule, p = e = e X 
On en déduit : 
k = -ln p 


• Pr(X = 1) = 



= pk. 
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Exemples de distributions 


Pr(X = 2) 
Pr(X = 3) 
Pr(X = k ) 




Pr(X= 1)^, 
Pr(X=2)y 


Pr(X = k-l)j 

K 


On peut ainsi calculer facilement de proche en proche les probabilités des diverses va¬ 
leurs de k. 

Lien avec la loi binomiale 

Si une variable aléatoire X est distribuée selon une loi binomiale B (n, n), on montre que si 
n est petit (en pratique inférieur à 0,1) et n assez grand (supérieur à 50), la loi binomiale 
peut être approximée par une loi de Poisson de paramètre X=n n. 

Les calculs sont plus simples avec la loi de Poisson qu’avec la binomiale. 

Notons que puisque X est distribuée selon une loi binomiale, ses valeurs possibles ne 
peuvent dépasser n , alors que l’approximation par la loi de Poisson autorise des valeurs su¬ 
périeures. Cependant le calcul fournit des probabilités très faibles pour ces valeurs aber¬ 
rantes. 


7.2 Lois continues 

7.2.1 Loi normale 


7.2.1.1 Définition 


La distribution normale, ou de Laplace-Gauss, appelée aussi gaussienne, est une distribution conti¬ 
nue qui dépend de deux paramètres p et a. On la note N(p, a 2 ). Le paramètre p peut être quel¬ 
conque mais a est positif. Cette distribution est définie par : 


/(-*; IL a) 


l(.v-H ) 2 



C’est une des lois les plus importantes, sinon la plus importante comme vous le verrez à l’occasion 
du théorème central limite. 


7.2.1.2 Propriétés 

Allure de la courbe 

La loi normale, notée N(p, a 2 ), est symétrique par rapport à la droite d’abscisse p. 
Exemples : 
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Figure 2 : N(p, 1) pour les valeurs de p -2 ; 0 et 2 



Figure 3 : N(0, a 2 ) pour les valeurs de a 0,3 ; 1 et 2 


Caractéristiques 


Loi normale N(p, g 2 ) 

Espérance 

d 

Variance 

g 2 

Ecart-type 

G 


La distribution normale centrée réduite 

On dit que la distribution est centrée si son espérance p est nulle ; elle est dite réduite si sa 

'y 

variance g (et son écart-type g) est égale à 1. La distribution normale centrée réduite 
N(0, 1) est donc définie par la formule 
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1 ~2 f 

f(t; 0,1) = -Le 

J2n 

0,5 
0,4 
0,3 
0,2 
0,1 
0 

- 3 - 2-10123 

Figure 4 : loi normale centrée réduite N(0,1) 

Les probabilités correspondant aux divers intervalles ont été calculées et regroupées dans 
une table numérique. Ainsi la table A.l (en fin de polycopié) permet, à partir d’une proba¬ 
bilité a donnée, de trouver les bornes -u a , +u a d’un intervalle symétrique autour de 0, tel 
que 

Pr(t £ [~z a ; +zj) = a 

ou encore, à partir de u a , de trouver a. 

D’où par exemple : 

Pr (t e [-£« ; +z«]) = 1 - a 
Pr{t > z a ) = Pr(t<-z a ) = a/2 

On observe ainsi que environ 68 % de la surface est comprise entre (-1 et +1), 95 % entre 
(-2 et +2) et 99 % entre (-3 et +3) (la table A.l ne permet pas de trouver des valeurs aussi 
précises que celles de la figure 4). 

Transformation d’une loi normale quelconque en loi normale centrée réduite 

Soit une variable X distribuée selon une loi normale d’espérance p et d’écart-type a. 

A — u 

Alors la variable t = -- est distribuée selon une loi normale centrée réduite. 

a 

Les probabilités obtenues pour la loi centrée réduite permettent de calculer les probabilités 
pour une loi normale quelconque, à l’aide de cette transformation : 

, = Lui. 

a 

Soit par exemple à calculer Pr(a<X<b). Par la transformation, on a 
Pr(a<X<b ) = Pr(c<t<cl) avec 

c = = b -^. 

G G 

La probabilité cherchée, sur la variable X, revient donc à lire sur la table de la loi centrée 
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réduite (variable t ), la probabilité de se trouver entre c et d. 

On remarque en particulier que Pr(-2 <t< 2) = Pr(p - 2a < X < p + 2a) « 0,95 
Approximation de la distribution binomiale par la loi normale 

Lorsque n est grand, et que n et 1—H ne sont pas trop proches de 0 (en pratique si n il > 5 et 
n{ 1 - n) > 5 ), alors on constate que la distribution binomiale tend vers la distribution nor¬ 
male de moyenne nl\ et de variance n 11(1-11) ; plus précisément, pour une variable K dis¬ 
tribuée selon une loi binomiale B (n , n) et une variable X distribuée selon une loi normale 
N(p = n n, a 2 = «n(l-n)), on a : 

Pr(K = k ) = Pr(k) = Pr(k - 0,5 < K<k + 0,5) « Pr(k - 0,5 <X<k + 0,5) 

On choisit l’artifice de représenter graphiquement Pr(k) par un rectangle dont la base est 
[k - 0,5, k + 0,5] et la surface est Pr(k ) pour comparer la loi discrète Pr(k) et la loi normale 
continue. 



Approximation de la loi de Poisson par la loi normale 

Lorsque son paramètre X est grand (en pratique supérieur à 25), une loi de Poisson peut être 
approchée par une loi normale d’espérance X et de variance X. 

Le principe est analogue à celui utilisé pour l’approximation de la loi binomiale par la loi 
normale. 


7.2.2 Loi du % 2 (chi-2) 

7.2.2.1 Définition 

C’est une loi dérivée de la loi normale, très importante pour ses applications en statistiques comme 
nous le reverrons dans les tests. 

Soient Xj, ..., X n des variables aléatoires indépendantes, chacune étant distribuée selon une loi nor¬ 
male centrée réduite : 

Vi, Xj ~ N(0, 1) 

2 2 2 9 

La distribution de S = X\ + X 2 + ... + X n (somme des carrés des X t ) est appelée loi de % à n de¬ 
grés de liberté (en abrégé d. d. 1.), que l’on note y_ 2 (n) où n est le nombre de d. d. 1., seul paramètre 
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de la loi. 


Loi du % 2 (« ) 

Espérance 

n 

Variance 

2 n 

Ecart-type 

J2n 


1 . 2 . 2.2 Propriétés 

'y 

a. Allure de la distribution de % (n) pour différentes valeurs de n 



Pour n = 1, la courbe décroît de +œ vers zéro de façon monotone ; pour n = 2, la courbe dé¬ 
croît de façon monotone de 0,5 à zéro ; pour n > 2, la courbe part de 0, a son maximum pour 
x = n - 2, puis redescend vers zéro. 

b. Propriété asymptotique 

'y 

La loi d’une variable X suivant un % (ri) tend vers une loi normale lorsque n —» +oo. On a 
donc, après avoir centré et réduit cette variable : 

^~N(0,1) 

J2n 

NB : Dans la pratique, on utilise plutôt la variable Y = JlX - Jln - 1 dont on montre 
qu’elle est à peu près distribuée selon une loi normale centrée réduite dès que n > 30. 

c. Tables 

'y 

De même que pour la loi normale centrée réduite, une table existe pour la loi du % (voir en 
fin de polycopié, table A.4). Cette table indique pour une probabilité a donnée, et un degré de 
liberté n donné, la valeur K, i U telle que Pr( X > K n a ) = a . 

7.2.3 Loi de Student (hors programme) 

Il s’agit encore d’une loi dérivée de la loi normale, très utilisée dans les tests statistiques. On consi- 
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dère une première variable aléatoire X, distribuée selon une loi normale centrée réduite, puis une 
seconde variable Y, indépendante de X, distribuée selon un % à n degrés de liberté. 

Alors la variable aléatoire Z = Jn — est distribuée selon une loi de Student à n degrés de liberté, 
notée t(n). 


Loi de Student t (n ) 

Espérance 

0 

Variance 

n 


n - 2 

Ecart-type 



y n - 2 


La courbe correspondante est symétrique autour de 0, et son allure est proche de celle de la loi nor¬ 
male. 


R 

Cette loi est centrée, mais non réduite : la variance,-- , est supérieure à 1. 

n - 2 

Lorsque n croît, en pratique pour n > 30, la variance peut être prise égale à 1, et la distribution as¬ 
similée à celle d’une loi normale centrée réduite. 


7.2.4 Loi exponentielle (hors programme) 

Cette loi décrit par exemple le processus de mortalité dans le cas où le « risque instantané » de dé¬ 
cès est constant. La loi correspondante est : 

f(x) = Xe / x avec X > 0 et x > 0 
où x est la durée de vie. 


Loi exponentielle 

Espérance 

1/X 

Variance 

1/X 2 

Ecart-type 

1/X 
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7.3 Application de la Loi de Poisson à 
l’interprétation d’un risque sanitaire possible 
qui n’a pas encore été observé 


Celle section a été écrite par A. J. Valleron. 


7.3.1 Introduction 

Dans de nombreux cas, on s’intéresse à un risque sanitaire a priori faible et on constate, après n 
observations, que l’événement redouté n’a jamais eu lieu. Par exemple, au bout de 10 000 prescrip¬ 
tions d’un médicament nouveau, on n’ a pas observé un seul effet indésirable. Ou un chirurgien exa¬ 
minant le suivi de ses 50 dernières interventions avec une technique très innovante a la satisfaction 
de ne pas avoir eu un seul échec. Ces observations semblent plutôt rassurantes, mais que peut-on 
en tirer pour apprécier le risque encouru au bout de 1 000 000 de ces prescriptions, ou au bout de 

100 000 interventions avec cette technique chirurgicale ? 

C’est un problème qui se pose particulièrement en pharmacovigilance : on admet dans de nom¬ 
breuses classes thérapeutiques qu’un médicament qui tuerait un malade sur 1 000 000 de prescrip¬ 
tions devrait être retiré du marché. Le biostatisticien posera donc le problème suivant : sachant 
qu’après 10 000 prescriptions aucun décès causé par le médicament n’a été observé, quel nombre 
de décès peut cependant être redouté sur 1 000 000 de prescriptions qui soit compatible avec ce 
qu’on sait aujourd’hui (0 décès sur 10 000). Si ce nombre dépasse 1 (on verra dans l’application 
numérique traitée plus loin qu’il le dépasse de loin), la plus grande vigilance s’imposera ! 

Le raisonnement qui suit combine le calcul des probabilités (loi de Poisson, approximation d’une 

101 binomiale par une loi de Poisson), et « l’inférence statistique ». L’inférence statistique est le 
mode de raisonnement qui permet à partir d’une observation (ici : 0 effet indésirable sur 10 000) 
de tirer des conclusions générales (ici : ce qui pourrait arriver sur 1 000 000 ou 10 000 000 de 
prescriptions). Les applications principales de l’inférence concernent l’estimation statistique et les 
tests statistiques ; elles sont traitées en détail dans les chapitres suivants du polycopié. Mais l’ap¬ 
plication détaillée ci-après initie bien à ce mode de raisonnement. 


7.3.2 Le problème « direct » 

Dans le problème direct on suppose que le risque d’effet indésirable chez un patient donné est 
connu, et on veut calculer la probabilité d’observer l’événement « 0 effet indésirable au bout des n 
premières observations ». 

— Soit n le risque individuel (= la probabilité) d’un effet indésirable après traitement. 

— Soit n le nombre de patients traités. 

Alors le nombre X de patients présentant un effet indésirable suit une loi binomiale de moyenne 
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X = nll. Si n est très petit, n très grand et nll assez petit (ces hypothèses seront toujours faites dans 
ces problèmes de risque sanitaire) la loi de X peut être approximée par une loi de Poisson de para¬ 
mètre X. En particulier, Pr(X = 0) = e"^ et Pr(X = 1) = Xc~ K . 

Remarque : on sait calculer exactement Pr(X = 0) = (1- TT) n en exprimant que chacune des n pres¬ 
criptions doit être sans effet indésirable (probabilité 1- TT). Quand TT est très petit, et nTTpas trop 
grand on montre que cette valeur est très proche de e~ nn . 


7.3.3 Problème inverse 

C’est le problème qui se pose en pratique : On observe l’événement « x = zéro effet adverse sur n 
patients traités ». Que peut-on alors dire de n ? (ou de X car n = XIn ). On approchera la distribution 
de X par la loi de Poisson de paramètre X = nT 1. 

Pour répondre, la méthode utilisée est d’écarter les valeurs de fl pour lesquelles notre observation 

(x = 0 après n répétitions) serait « invraisemblable ». 

Mais que veut dire invraisemblable ? Pour fixer les idées, imaginons que l’on ait observé x=0 par¬ 
mi n = 10 000 traitements. 

— Si n avait été 1/1000, la probabilité de l’événement observé (« x = 0 sur 10 000 ») aurait été 
e" 10 = 0,000045 = 4,5/100 000. (car X = nll = 10). Cette probabilité est infime : tout le monde 
sera d’accord pour dire qu’il aurait été très invraisemblable de n’avoir aucun effet indésirable 
si le risque individuel inconnu était de n = 1/1000. 

— Si El avait été 1/10 000, la probabilité de l’événement observé aurait été e" 1 = 0,37 = 37% (car 
X = 77 n = 1). La probabilité 0,37 est « forte ». Tout le monde sera d’accord pour dire qu’il 
n’était pas invraisemblable de n’observer aucun effet indésirable si le risque individuel était 

n = 1/10 000. 

e" 10 est une « petite » probabilité - l’événement est invraisemblable ; e" 1 est une « grande » proba¬ 
bilité - l’événement n’est pas invraisemblable. Pour préciser quantitativement ce que veut dire 
« invraisemblable » il faut choisir un seuil en dessous duquel on va déclarer qu’une probabilité est 
« petite » : la valeur conventionnelle retenue universellement est 5% . La traduction de ce choix est 
qu’on décide de ne pas trouver « invraisemblable » un événement ayant 10 chances sur 100 de se 
produire (car 10% > 5%), mais de trouver « invraisemblable » un événement ayant 1 chance sur 
100 de se produire. 

Ce choix permet d’apporter une solution au problème posé : l’observation « x = 0 sur 10000 » est 
invraisemblable si sa probabilité est inférieure à 5%, c’est-à-dire si exp(- nll) < 5%. Toutes les va¬ 
leurs de n supérieures à la solution de cette inégalité seront réputées « invraisemblables » ; et les 
autres seront réputées « vraisemblables ». 

La résolution de l’inéquation donne fl > fl lim = ln(0,05)/72 = 3 In. 


Résultat 

Quand on observe 0 effet indésirable parmi n répétitions, ceci est compatible avec un 
risque individuel compris entre 0 et 3/n . En revanche, les risques supérieurs à 3/n sont 
jugés invraisemblables. 
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Comme la médecine veille à limiter le plus possible le risque encouru par les malades à l’occasion 
d’un traitement, la démarche de « précaution » est, lorsqu’on observe 0 effets indésirables sur n 
traitements, de conclure que le risque réel du traitement peut aller jusqu’à 3/n. Il peut bien sûr être 
plus petit : l’avenir le dira, et l’estimation du risque se précisera au fur et à mesure que de plus en 
plus de patients auront été traités. Mais en attendant, pour se préparer « au pire », on doit considérer 
la valeur maximum non invraisemblable, à savoir 3/n. 


7.3.4 Application numérique 

On traite 10 000 patients sans observer cl’événement indésirable. Evaluer la limite supérieure du 
nombre d’événements indésirables qu’on peut redouter sur 1 000 000 de prescriptions, compa¬ 
tibles avec cette observation préliminaire. 

Par application du résultat, l’observation « x = 0 sur 10,000 » est compatible avec un risque indi¬ 
viduel maximum de 3/10000. 

Sur 1 000 000 de prescriptions, on aura donc au maximum un nombre de 3/10 000 x 1 000 000 = 
300 effets indésirables. 

Ainsi, un laboratoire pharmaceutique ayant mis sur le marché une nouvelle molécule ne peut en 
rien être « rassuré » sur le risque associé à celle-ci après avoir constaté qu’il n’y avait aucun décès 
sur les 10 000 premières prescriptions. 

Cette observation reste compatible avec un risque de 3/10000, et 300 décès sur le 1 000 000 de 
prescriptions suivant, ce qui serait une catastrophe sanitaire. 

Ceci illustre également la difficulté de garantir un médicament « sans risque » lorsqu’il n’a été testé 
que chez quelques milliers de patients afin de voir s’il est efficace (voir chapitre 15 sur la métho¬ 
dologie des études épidémiologiques et les essais thérapeutiques), comme c’est généralement le 
cas au moment de la demande d’autorisation de mise sur le marché. 


7.3.5 Remarque 

Le calcul menant au résultat encadré repose sur un raisonnement subtil (qui sera retrouvé dans les 
chapitres relatifs aux tests statistiques). 

Chacun doit comprendre dans l’exemple traité que le résultat trouvé ne signifie pas qu’il y a 5 
chances sur 100 pour que le risque sanitaire soit de 3/10 000 (cette interprétation fausse du « 3 » 
est très majoritairement faite, y compris par de nombreux professionnels). Ce que le calcul indique, 
c’est que si le risque de mort était de 3/10000 (il ne l’est peut-être pas), il y aurait 5 chances sur 
100 d’observer 0 décès sur 10 000 prescriptions, comme on l’a fait. En reprenant les notations des 
probabilités conditionnelles, il ne faut pas confondre Pr(A / B) et Pr(B / A), avec ici A = ( À = 31 
et B = {X = 0}. 
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Chapitre 8 

Statistiques descriptives 

Les statistiques descriptives visent à représenter des données dont on veut connaître les principales 
caractéristiques quantifiant leur variabilité. 


8.1 Rappels et compléments 


On suppose que l’on s’intéresse à une caractéristique particulière observable chez des individus is¬ 
sus d’une population ; cette caractéristique sera appelée variable ; si cette caractéristique peut va¬ 
rier entre les individus, sans pouvoir l’anticiper, on l’appellera variable aléatoire. Le dispositif 
permettant d’obtenir une valeur de la variable est l’expérience aléatoire. Cette définition imagée 
est compatible avec la définition du chapitre 6. 

Rappel 

Il existe deux grands groupes de variables : 

a. Les variables quantitatives qui sont des variables ordonnées, productives de 
nombres. Exemples : nombre d’enfants dans une famille, glycémie, taille d’un indivi¬ 
du, nombre de colonies bactériennes dans un milieu de culture. 

Parmi ces variables quantitatives, certaines prennent un continuum de valeurs (entre 
deux valeurs possibles, il existe toujours une troisième valeur possible) ; ces variables 
sont dites continues. D’autres ne prennent que des valeurs discontinues ; elles sont 
dites discrètes, finies ou non. 

b. Les variables qualitatives qui produisent des valeurs non numériques. Exemples : 
sexe, couleur des cheveux, appartenance au groupe des fumeurs ou des non fumeurs, 
présence ou absence d’une maladie. 

Les valeurs peuvent être ordonnées ; on parle alors de variable qualitative ordinale. 
Exemple : intensité d’une douleur (faible, moyenne, forte). 

Si les valeurs ne peuvent pas être ordonnées, il s’agit d’une variable catégorielle (ou 
nominale). 

Remarque 

L’individu évoqué ci-dessus, sur lequel on observe les caractéristiques d’intérêt, la va¬ 
riable, n’est pas nécessairement un individu physique. C’est l’entité sur laquelle s’opère 
l’observation de la variable d’intérêt. Exemples : famille, colonies bactériennes. 

Définition 

L’entité sur laquelle peut s’observer la variable aléatoire s’appelle l’unité statistique. 
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Connaître le phénomène mettant en jeu cette variable, ou connaître cette variable, c’est 
connaître la probabilité pour qu’un individu tiré au hasard dans la population présente telle 
valeur de la variable. On peut apprécier la probabilité d’un événement aléatoire grâce à l’in¬ 
terprétation suivante de la notion de probabibté. Cette interprétation est cohérente avec les 
cours précédents. 

On interprétera la probabilité d’un événement aléatoire comme la valeur limite de la fré¬ 
quence avec laquelle l’événement se réalise au cours d’un nombre croissant de répétitions 
de l’expérience. Autrement dit comme la valeur limite du rapport du nombre de fois où 
l’événement s’est réalisé et du nombre de répétitions de l’expérience. 

Remarques 

• Ce qui précède peut être vu comme une interprétation de la notion de probabilité (voire 
comme une définition). 

• En dépit de cette interprétation, la probabilité d’un événement aléatoire reste 

— une fiction 

— du domaine théorique. 

Mais cette interprétation a deux conséquences : 

— pour approcher une probabilité on est amené à répéter une expérience, 

— les fréquences se substituent aux probabilités ; elles seront les contreparties des 
probabilités. 

On va donc répéter une expérience un nombre fini de fois, noté n ; on aura donc ob¬ 
servé une sous-population appelée échantillon. Chaque expérience aléatoire produit 
un résultat x- t ; on disposera donc de x |, ..., x n , ensemble appelé échantillon de va¬ 
leurs de la variable étudiée X. 

• De façon plus formelle, on définit un échantillon d’une variable aléatoire de la ma¬ 
nière suivante : 

Un échantillon de taille n d’une variable aléatoire X est un ensemble X h X 2 , ..., X n 
de n variables aléatoires, indépendantes entre elles, et ayant chacune la même distri¬ 
bution que X. On peut donc dire qu’un échantillon de valeurs de X est une réalisation 
de l’échantillon de la variable X tel qu’il vient d’être défini. 

8.2 Représentation complète d’une série 
d’expériences 


8.2.1 Cas d’une variable qualitative 

La variable est décrite par la suite des probabilités des différentes modalités. Si l’on connaissait ces 
probabilités, on produirait le diagramme en bâtons (ou répartition « vraie ») de cette variable ; on 
va produire la répartition observée par substitution aux probabilités inconnues des fréquences ob- 
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servées. Si la variable est ordinale, on respectera cet ordre dans l’énumération des modalités por¬ 
tées en abscisses. 


A 


Fréquences 


modalité 1 modalité 2 


D’autres types de représentation sont utilisés : par exemple la représentation en camembert où les 
différentes modalités sont représentées par secteurs angulaires d’angles au centre proportionnels 
aux fréquences observées. 



8.2.2 Cas d’une variable quantitative discrète 

La situation est similaire si ce n’est qu’il existe un ordre et une échelle naturels en abscisses ; la 
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répartition observée se nomme également histogramme en bâtons. 

A Fréquences 


valeur 1 valeur 2 


8.2.3 Cas d’une variable quantitative continue. Notion 
d’HISTOGRAMME 

Dans le cas de variables continues, on va choisir de représenter les données graphiquement d’une 
façon qui soit proche de la représentation d’une densité de probabilité d’une variable aléatoire 
continue. Pour cela on découpe l’ensemble du domaine des valeurs possibles de la variable étudiée 
en intervalles contigus dont on choisit le nombre et les bornes. Afin d’obtenir une représentation 
proche d’une densité de probabilité, on décide de représenter indirectement la fréquence des va¬ 
leurs observées comprises entre deux bornes consécutives par la surface d’un rectangle dont la base 
sera précisément cet intervalle. Autrement dit la hauteur de ce rectangle sera le rapport de la fré¬ 
quence observée de ces valeurs et de la différence entre ces bornes (différence également appelée 
largeur de la classe). 



Les bornes sont choisies arbitrairement ; néanmoins, pour que l’histogramme ait un sens il est né¬ 
cessaire que la taille de chaque classe constituant un intervalle comprenne un nombre suffisam¬ 
ment grand de valeurs observées, de telle façon que la surface d’un rectangle élémentaire puisse 
être interprétée comme approchant la probabilité pour que la variable prenne une valeur comprise 
dans l’intervalle du rectangle. Si la taille de l’échantillon croît, la surface de chaque rectangle tend 
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vers la probabilité que la variable ait une valeur incluse dans l’intervalle correspondant. De plus, 


si la taille n de l’échantillon est grande, on peut alors sans inconvénient construire un plus grand 
nombre de classes, c’est-à-dire construire par exemple deux fois plus de rectangles, chacun ayant 
un support deux fois plus petit. En répétant cette opération, n croissant, on peut comprendre que 
l’histogramme tend (d’une façon que nous ne préciserons pas ici) vers la densité de probabilité de 
la loi qui a généré l’échantillon. 


8.3 Représentation simplifiée d’une série 
d’expériences 


On a défini certains indicateurs pour représenter, de façon plus résumée que ci-dessus, un échan¬ 
tillon de valeurs issues d’une variable aléatoire. 

Les indicateurs présentés ci-dessous ne concernent que les variables quantitatives. 


8.3.1 Indicateurs de localisation des valeurs 


Médiane observée 

C’est la valeur qui partage l’échantillon en deux groupes de même effectif ; pour la calcu¬ 
ler, il faut commencer par ordonner les valeurs (les ranger par ordre croissant par exemple) 
Exemple : soit la série 123 24 1587 
on l’ordonne : 1 3 5 7 8 12 24 
7 est la médiane de la série 
Moyenne observée 

C’est l’indicateur de localisation le plus fréquemment utilisé. La moyenne observée d’un 
échantillon de n valeurs x±, ..., x n est définie comme la moyenne arithmétique de ces 
valeurs ; on la note souvent m x , ou simplement m s’il n’y a pas de confusion possible : 


n 



i = 1 

Avec la série précédente, qui comporte n =1 valeurs, on obtient : 
7 



i = 1 


8.3.2 Indicateurs de dispersion des valeurs 


Variance observée 

La variance observée d’un échantillon {x t } i = 1, ..., n est donnée par 


n 



i = 1 
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Attention : on divise par n -1 et non par n pour que la variance observée soit un bon esti¬ 
mateur de la variance théorique de la loi (nous reverrons ce point dans la suite). 

Une autre expression de s 2 , équivalente, est indiquée dans le résumé de ce chapitre. 

Ecart-type observé 

L’écart-type observé, noté 5 , est défini par 5 = 


8.4 Reformulation de la moyenne et de la 
variance observées 


8.4.1 Reformulation de la moyenne observée 


Prenons le cas d’une variable quantitative discrète. 

Les données sont notées x 7 , ..., x n . 

Les k valeurs possibles de la variable sont notées val],val 2 ,...., val^. 


Exemple d’un jet de dé : val ( = 1,..., val 6 = 6 


Chaque donnée v ; - coïncide avec une certaine valeur val y 
Par exemple pour le jet de dé, on peut avoir 


• jet n°l ; *1 = 1 = val} 

• jet n °2 ; x 2 = 1 = val| 

• jet n°3 ; x 3 = 4 = val 4 

• jet n°4 ; x 4 = 3 = val 3 

• jet n°5 ; x 5 = 6 = val 6 

• jet n °6 ; x 6 = 1 = va^ 

• jet n°7 ;x 7 = 2 = val 2 

• jet n °8 ; x 8 = 5 = val 5 

• jet n°9 ; x 9 = 6 = val 6 


n k 

Alors : Z x > = Z "rt 

; = i j = 1 

où rij est le nombre de fois où une observation coïncide avec valy 


Dans notre exemple du jet de dé, on a : n l = 3, n 2 = 1, n 3 = 1, n 4 = 1, = 1, = 2 

n k 

1 n j 

Finalement m = - V x- = V — val - 
n ^ t—in 1 

i = 1 7=1 
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Mais — est une approximation de Pr(face marquée = val,-) 

Ainsi m est une estimation - une appréciation - de : 

^val ; /V( valeur de la variable = valy) 

j 

c’est-à-dire une appréciation de l’espérance mathématique de la variable. 

On raccorde ainsi une moyenne observée à une grandeur descriptive du phénomène étudié, à une 
grandeur dite « théorique » ou « vraie ». 

On peut dire ceci : la répétition des expériences vise à estimer /Yfvalcur de la variable = certain 
niveau). La moyenne observée permet d’estimer quelque chose de plus grossier, une combinaison 
de toutes ces probabilités, précisément l’espérance mathématique 
p = ^val ; Pr( valeur de la variable = valy) 

j 

C’est la raison pour laquelle dans la suite on utilisera également la terminologie MOYENNE 
« VRAIE » ou MOYENNE THEORIQUE de la variable pour parler de l’espérance mathéma¬ 
tique. 

Retenons : 

ESPERANCE MATHEMATIQUE, 

MOYENNE « VRAIE », 

MOYENNE THEORIQUE 

sont SYNONYMES. Ce sont des grandeurs théoriques. 

Remarque 

La même analyse peut être faite - mais l’expression est un peu plus délicate - dans le cas 
d’une variable quantitative continue. La moyenne observée approxime là encore l’espé¬ 
rance mathématique. 


8.4.2 Reformulation de la variance 

De la même façon on peut obtenir le résultat suivant : 
o“ = y (val,- - p)“/V(valeur de la variable = valy) 

j 

Cette expression, introduite dans le chapitre 6 sous le nom de variance sera souvent dénommée 
dans la suite VARIANCE « VRAIE » ou VARIANCE THEORIQUE de la variable. 

Dans le cas d’une variable continue, la variance observée s approxime : 
o“ = J {x - \i)~f{x)dx 

9 ? 


observée 

O 

s est une approximation de la grandeur 


LES DIFFERENCES ENTRE CES NOTIONS DE MOYENNE ET VARIANCE « VRAIES », ET 
DE MOYENNE ET VARIANCE OBSERVEES SONT ESSENTIELLES ; NOUS ENGA¬ 
GEONS LE LECTEUR A BIEN LES COMPRENDRE AVANT DE POURSUIVRE. 
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8.5 Cas particulier d’une variable à deux 
modalités - Proportion 


On est très souvent amené à considérer des variables à deux modalités, c’est-à-dire des expériences 
aléatoires à deux événements élémentaires. 

Exemples : 

• maladie : maladie présente - maladie absente 

• signe clinique : présent - absent 

• traitement : individu traité - individu non traité 

Or on peut transformer une telle variable en variable quantitative, sans restriction de généralité, par 
un artifice de codage : 

• une des modalités est codée avec la valeur numérique 0 ; 

• l’autre modalité est codée avec la valeur numérique 1. 

Une telle variable s’appelle variable de Bernoulli. 

Notons X cette variable. 

Elle est complètement décrite par la donnée de Pr{ valeur de la variable =1) car 
Pr(valeur de la variable = 1) + Pr(valeur de la variable = 0) = 1. 

On utilise la notation conventionnelle suivante : Pr(valeur de la variable = 1) SE NOTE fl. 


8.5.1 Expression de l’espérance mathématique de X 

Utilisant l’expression générale de l’espérance mathématique, et remarquant que valj = 0, val 2 =1, 
on obtient : 

p = y^va\jPr( valeur de la variable = valy) = 0x(l-n)+lxII = El 

j 

Ainsi, p = El = Pr (valeur de la variable = 1) = probabilité de la modalité codée 1 = PROPORTION 
VRAIE des individus présentant la modalité 1. 


8.5.2 Expression de la variance de X 

a" = ^(valj■ - p)“Pr(valeur de la v.a. = vaip = (0 - II) 2 ( 1 - II) + (1 - II) 2 n = 11(1-11) 

j 
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8.5.3 Interprétation de la moyenne observée 


m = 


= -y jc, = -[0 + 0 + 1+ 0 + 1 + 1 +...] = 


nombre de fois où X = 1 


Ainsi, m coïncide avec la fréquence observée de la modalité codée 1. Cette fréquence sera notée p 
et s’appelle de façon naturelle PROPORTION OBSERVEE d’individus présentant la modalité 1. 


Exemple 

Dans le cas de l’étude d’un signe clinique, en codant 1 la présence du signe clinique, m 
(donc p ) sera la fréquence observée de la présence du signe ou encore le pourcentage des 
individus présentant le signe (à un facteur 100 près). 

En résumé 


• si X est une variable de Bernoulli, 

— sa moyenne « vraie » = El 

— sa variance « vraie » =11(1-11) 

• UNE PROPORTION OBSERVEE EST UNE MOYENNE OBSERVEE. 

8.6 Conclusion : la variable aléatoire 
moyenne arithmétique 


On a jusqu’ici associé une valeur de moyenne observée à une série de n réalisations d’une variable 
aléatoire quantitative X. Mais chaque expérience consistant à recueillir n réalisations de la va¬ 
riable X permet de calculer une valeur, différente à chaque expérience, de moyenne observée. Au¬ 
trement dit, la moyenne observée doit être vue comme une nouvelle variable aléatoire que nous 
appellerons moyenne arithmétique ; on la notera M. Dans certains cas, afin de rappeler que cette 
variable dépend de n, on notera M n la variable construite à partir de n réalisations de X. 

n 

M - = 1 nZ X < 

i = 1 

On utilisera la terminologie suivante : 

on dira que M (ou M n si nécessaire) est la VARIABLE ALEATOIRE MOYENNE ARITHME¬ 
TIQUE DEDUITE DE LA VARIABLE ALEATOIRE X, FONDEE SUR n REPETITIONS 

ou, de façon équivalente que M (ou M n si nécessaire) est la VARIABLE ALEATOIRE 
MOYENNE ARITHMETIQUE ASSOCIEE A LA VARIABLE ALEATOIRE X, FONDEE SUR 
n REPETITIONS 

Remarque 

Dans le cas où X est une variable de Bernoulli, M n sera notée P n (et M simplement P). Il s’agit 
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d’une variable aléatoire proportion dont on connaît déjà pratiquement la distribution puisque 
nP n ~ B (n, II) (voir section 7.1.2 page 63). 
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Résumé du chapitre 

1. Une variable aléatoire est une variable observable au cours d’une expérience et dont la va¬ 
leur peut varier d’une expérience à l’autre de façon non prévisible. 

2. Représentation d’une variable 



répartition d’un 
échantillon 

représentation de la population 

variable qualitative 

répartition observée 

répartition vraie 

variable quantitative 
discrète 

histogramme en bâtons 

répartition vraie 

variable quantitative 
continue 

histogramme 

densité de probabilité 


3. Moyennes (variables quantitatives + variables de Bernoulli) 


moyenne observée espérance, ou moyenne « vraie » 


variable discrète 

variable continue 

variable de Bernoulli 


m 


n 


1 


i = 1 
n 


m = - V X: 

n 

i = 1 

m est notée p 


p = ^ val jP r( variable = valy) 
j= i 


p = ^xf(x)dx 


« 


p = Pr( variable =1) est notée fl 


4. Variances (variables quantitatives) 



variances observées 

variances « vraies » 



n 

1 V 2 2 

- > X: - m 
n ' 

k 

variable discrète 

2 n 

S “ n - 1 

a 2 = ^ (valy - p) 2 Pr(variable = val ; ) 



i = 1 

j= i 

variable continue 

2 n 

S ~ n- 1 

n 

1 ^ ^ 2 
- > X: - m 
n 

i = 1 

a“ = J (x - p ) 2 f(x)dx 

SR 
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5. Variables centrée et centrée réduite associées à une variable X 

Si X est une variable aléatoire de moyenne p et de variance a , 

• la variable (X - p) est dite variable centrée associée à X , 


la variable 


X-p 

a 


est dite variable centrée réduite associée à X. 
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Chapitre 9 

Fluctuations de la moyenne 
observée : la variable aléatoire 
moyenne arithmétique 

On conserve le contexte d’étude du chapitre précédent, c’est-à-dire l’examen de la variabilité d’une 
grandeur (variable aléatoire) dans une population d’individus ou unités statistiques. Mais on s’in¬ 
téresse ici à la variable aléatoire « moyenne arithmétique ». 


9.1 Première propriété de la variable aléatoire 
moyenne arithmétique 


9.1.1 Un exemple 

Prenons à nouveau le cas d’une variable discrète pouvant prendre les deux valeurs 0 et 1 [c’est-à- 
dire variable associée à présence-absence ou oui-non]. Supposons que l’on ait des raisons de penser 
que Pr(X = 0) = Pr(X = 1) = 1/2. On a vu qu’une telle variable a pour espérance 1/2, pour variance 
« vraie » 1/4. 

On peut, par le calcul, pronostiquer le résultat d’une répétition d’expériences. En particulier, cal¬ 
culer la répartition de la variable « moyenne arithmétique calculée sur un échantillon de deux 
individus », notée M 2 , ici deux lancers de pièce. 

On isole cette variable. Quelles valeurs peut-elle prendre, avec quelles probabilités ? 


jet 1 : 

Proba 

jet 2 : 

Proba 

Proba 

Vf 

résultats 

jet 1 

résultats 

jet 2 

jetl,jet2 

ivi 2 

0 

1/2 

0 

1/2 

1/4 

l/2(0+0) = 0 

0 

1/2 

1 

1/2 

1/4 

l/2(0+l) = 1/2 
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jet 1 : 

Proba 

jet 2 : 

Proba 

Proba 


résultats 

jet 1 

résultats 

jet 2 

jetl,jet2 

1Y1 2 

1 

1/2 

0 

1/2 

1/4 

1/2(140) = 1/2 

1 

1/2 

1 

1/2 

1/4 

1/2(14-1)= 1 


Ainsi, Pr(M 2 = 0) = ± Pr[M 2 = ^j=l + i = l, Pr(M 2 = 1) = i 
Alors : 

• moyenne vraie de M 2 = + + l x i i = moyenne vraie de X 


variance vraie de M 2 





1 

8 


1 1 

2 X 4 


Ainsi la variance « vraie » de la moyenne arithmétique est plus faible que la variance « vraie » de 
la variable d’origine (la moitié ici). L’espérance reste inchangée. Et ainsi vont les choses si la taille 
des échantillons (ici 2) qui constituent les unités statistiques augmente. La dispersion de M diminue 
au fur et à mesure que M se trouve calculée sur la base d’un échantillon de taille croissante. Le 
« comment » de cette situation peut être résumé ainsi : les valeurs de la moyenne arithmétique de¬ 
viennent de plus en plus probables dans un voisinage de l’espérance car le nombre de situations 
pouvant donner une valeur observée proche de l’espérance augmente dans ce voisinage. Cela est 
dû au fait que l’espérance mathématique est « au milieu » des valeurs possibles. On le voit sur 
l’exemple ci-dessus où l’espérance est obtenue dans les deux cas (0, 1) et (1, 0). C’est encore plus 
perceptible sur l’exemple d’un dé. Pour que la moyenne observée calculée sur deux jets de dé soit 
6 , il faut obtenir le résultat (6, 6) ; pour qu’elle soit 3, il faut un total de 6, c’est-à-dire (5, 1), (4, 2), 
(3, 3), (2, 4), (1, 5), soit un événement 5 fois plus probable. 

Il est possible de quantifier tout cela. On peut généraliser ce qui a été obtenu avec deux jets de 
pièces et on obtient, quelle que soit la distribution de la variable étudiée - qu’elle soit continue ou 
discrète - les résultats fondamentaux suivants. 


9.1.2 Généralisation 

i. L’espérance mathématique, ou moyenne « vraie », de la variable aléatoire moyenne arithmé¬ 
tique calculée sur un échantillon de taille n coïncide avec la moyenne « vraie » de la variable 
étudiée, ce que l’on peut résumer par : 


E(M n ) = E(X) 


ii. La variance « vraie » de la variable aléatoire moyenne arithmétique calculée sur un échantil¬ 
lon de taille n est égale à la variance « vraie » de la variable DIVISEE PAR n, ce que l’on 
peut résumer par : 


90/179 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE mEDECine 


g. 


2013 -2014 







Fluctuations de la moyenne observée : la variable aléatoire moyenne arithmétique 


g 2 (M„) = WçC) 
n 

d’où la relation entre écarts-types : 

G(M„) = -^(A) 

Jn 


iii. Dans le cas où X est une variable de Bernoulli de paramètre n ( Pr(X = 1) = II), les relations 
précédentes deviennent : 


n(f„) = n 
<jV„) = 


9.2 Seconde propriété de la variable aléatoire 
moyenne arithmétique : le théorème central 
limite 


On souhaiterait comparer, par curiosité, les distributions de plusieurs moyennes arithmétiques, cor¬ 
respondant à diverses variables aléatoires. Par exemple la taille, la glycémie. Ces distributions sont 
différentes, ne serait-ce qu’à cause des différences entre moyennes et variances « vraies ». Pour 
s’abstraire de ces premières différences, considérons la variable centrée réduite associée, soit pour 
chaque variable considérée : 


g(M, 7 ) S01t g(A) 



Maintenant toutes ces variables ont en commun leur espérance (0) et leur variance (1). Il se passe 
quelque chose d’extraordinaire : lorsque n est suffisamment grand, elles finissent par avoir en 
commun leur distribution, leur densité de probabilité. 

Cela signifie que les distributions de toutes ces variables (moyennes arithmétiques centrées ré¬ 
duites issues de variables aléatoires différentes) finissent par coïncider, lorsque n est suffisam¬ 
ment grand, avec une distribution particulière unique. Cette distribution s’appelle LOI 
NORMALE, et puisque sa moyenne « vraie » est nulle et sa variance « vraie » est 1, on l’appelle 
LOI NORMALE CENTREE REDUITE ou encore distribution de Gauss ou de Laplace-Gauss 
(1800). 

On la notera schématiquement N(0, 1) où 0 rappelle la valeur de la moyenne « vraie », 1 la valeur 
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de la variance « vraie ». 

Donc la propriété ci-dessus - connue sous le nom de théorème central limite - s’énonce : 

THEOREME CENTRAL LIMITE 

Soit X une variable aléatoire quantitative d’espérance mathématique p, de variance « vraie » cr. 
Soit M n la variable aléatoire moyenne arithmétique associée à X construite sur n répétitions. 


M n - p 

La distribution limite de la variable aléatoire- est la distribution 

a 


normale centrée réduite notée N(0,1). 


Il faut bien mesurer la portée de cette propriété. Quel que soit le phénomène étudié - apprécié par 
la variable aléatoire que l’on étudie - il suffit de connaître la moyenne et la variance de la variable 
pour déduire la distribution (la densité de probabilité) - c’est-à-dire l’expression la plus achevée 
des propriétés de variabilité - de la variable aléatoire moyenne arithmétique calculée sur un échan¬ 
tillon de taille suffisante. Nous reviendrons plus loin, au paragraphe résumé et précisions (voir page 
93), sur cette notion vague « taille suffisante ». Or c’est peu de connaître moyenne, variance (ou 
écart-type) seulement - ex. : pour le poids à la naissance p = 3 kg, a = 1,2 kg. 


9.3 Etude de la distribution normale (rappel) 


La distribution limite que l’on a mise en évidence dépeint une variable aléatoire d’espérance ma¬ 
thématique 0 et de variance « vraie » 1, que l’on a appelée distribution normale centrée réduite ou 
N(0, 1). 

X 

1 ~2 

La densité de probabilité est donnée par une fonction d’équation f(x ) = —-— e. et dont l’allure 

est représentée sur la figure 5. 

Ses principales caractéristiques morphologiques sont les suivantes : 

• elle est symétrique, 

• elle présente deux points d’inflexion enjc = letx = -l 

Par ailleurs, pour faciliter les calculs de probabilité relatifs à cette variable, des tables ont été 
construites qui donnent le lien entre a et u a , où ces valeurs ont le sens suivant (voir figure 5) : 
Pr(X £ [~u a ; +u a ]) = a 

En particulier, pour a = 0,05, la valeur u a lue dans la table est 1,96, d’où w 0 ,05 = 1,96 

On peut voir facilement que toute probabilité P r(X e [a,b]) s’obtient à partir d’une telle table, 

quelles que soient les valeurs de a et b. 
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Figure 5 : loi normale centrée réduite 


Remarque 

Sur la base de cette loi centrée réduite, on définit toute une famille de lois de la façon 
suivante : 

Si X est distribuée selon une loi normale centrée réduite (notation X ~ N (0, 1)), 

alors la variable F = oX + )r, dont l’espérance est p et la variance g 2 , est distribuée selon 

une loi normale d’espérance p et de variance a 2 . 

On écrit Y ~ N (p, a“) 

A l’inverse, si on dit que X ~ N (p, a 2 ) 

A — u 

cela veut dire que -- ~ N(0, 1) (variable centrée réduite associée). 

Exemple ° 

La figure 6. présente l’aspect de deux distributions normales l’une N(0, 1), l’autre 
N(2,9,4). 



Figure 6 : exemple de lois normales 
Résumé et précisions (théorème central limite) 

'y 

Si n est suffisamment grand, X ayant pour moyenne « vraie » p, pour variance « vraie » g , 
alors : 

M - p 

-~ N(0, 1) (à peu près) 
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ou, de façon équivalente, M n ~ N|p, —J (à peu près) 

où la notation ~ se lit : « est distribué comme » ou « suit une distribution ». 

a. La distribution de M n est exactement une loi normale (la mention à peu près est inu¬ 
tile), quel que soit n , si X elle-même est gaussienne (i.e. est distribuée normalement). 

b. si X n’est pas gaussienne : 

• si X est une variable quantitative autre que Bernoulli, la condition de validité 
usuelle est n > 30 

• si Z est une variable de Bernoulli (valeurs 0 et 1), la condition usuelle de validité 
est 


J nl\ > 5 et 
\n(l -n)>5 

En outre dans ce cas, p = n, a = n (1 - El) si bien que l’on aura : 

p n - n 

— ~ N(0, 1) (à peu près) 

/ n(i-n) 

A/ n 

ou, de façon équivalente, P n ~ N fil, ——1 (à peu près) 


9.4 Application du théorème central limite. 
Intervalle de Pari (I. P.) 


9.4.1 Définition de l’intervalle de pari (I. P.) d’une moyenne 
observée 

ry 

On considère une variable aléatoire de moyenne « vraie » p et de variance « vraie » a". 

On sait que pour n grand {n > 30, ou nll et n{\ - El) > 5) : 

M n - B 

la variable Z = - est approximativement distribuée selon N (0, 1). 

a 

Jn 

On se pose le problème suivant. On s’apprête à réaliser une série d’expériences, c’est-à-dire à me¬ 
surer la variable X sur un échantillon de n individus. Peut-on construire un intervalle [a, b] tel que 
la probabilité pour que la moyenne observée que l’on s’apprête à calculer appartienne à cet inter- 
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valle ait une valeur donnée ? Il s’agit donc de construire un intervalle qui contienne avec une pro¬ 
babilité fixée la valeur observée que l’on va obtenir. 

Il s’agit donc de trouver deux valeurs a et b telles que Pr(a < M n < b) = valeur donnée = 1 - a . 
Exemple : Pr(a < M n < b) = 0, 95 

Un tel intervalle [a, b] s’appelle INTERVALLE DE PARI (I. P.) de niveau 1 - a, ou encore in¬ 
tervalle de pari au risque a, ou encore INTERVALLE DE FLUCTUATION 

La figure 7 illustre le problème posé. 


A 



b? 


a? 0 


Figure 7 : le problème de l’intervalle de pari 


Ce problème admet plusieurs solutions : sauf besoin spécifique on choisit un intervalle symétrique 
autour de p (ce qui est naturel compte tenu de la distribution de M n ). 

Résolution : a = p - X— et b = p + X — 

Jn Jn 

La valeur X inconnue doit vérifier : 



Si le théorème central limite s’applique, l’expression ci-dessus suit une loi N(0, 1) ; notons-la Z. 
Alors X doit vérifier Pr(-X <Z<X ) = 1-a. C’est le u a de la table. 

Finalement : X = u a 
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IP 


1 - a 


G 


P - “a 



P + M a 



Intervalle de Pari (I. P) de la moyenne observée d’une variable de moyenne « vraie » ju, 
de variance « vraie » g construite sur un échantillon de taille n 


Exemple : a = 0,05 u a = 1,96 IP 0 9g 


p-1,96-^ ;p +1,96-^ 

Jn Jn-i 


Les conditions de validité de cette construction sont celles du théorème central limite, c’est-à-dire 
n > 30 pour les variables continues non normales et n n, n(\ - II) > 5 pour les variables de Ber¬ 
noulli. 


Cas d’une variable de Bernoulli : p est notée n, g" = n (1 - II). Donc 
IP a n. = fn- 1,96 / n(1 ~ n) ; n + 1,96 


0,95 


îi(i - n) 


L’interprétation de l’intervalle de pari est fondamentale. Si cet intervalle est bien calculé, on est 
quasi sûr, avec une probabilité 1 - a (ici 0,95), d’obtenir une valeur de la moyenne observée com¬ 
prise dans cet intervalle. En pariant que la valeur va tomber dans cet intervalle, on se trompera (en 
moyenne) dans cinq pour cent des expériences. 


Exemple : 

On a des raisons de penser que la fréquence d’une maladie dans la population est II = 0,2. L’inter¬ 
valle de pari de la moyenne observée (proportion observée) calculée sur 64 individus au niveau 
0,95 est : 


IP 


0,95 


Q2 1,9670,2(1-0,2) . Q2i 1,9670,2(1-0,2)- 


V64 


JëÂ 


[0,10 ; 0,30] 


Il y a 95 chances sur 100 pour que la proportion observée « tombe » dans cet intervalle. 


9.4.2 Les facteurs de dépendance de la longueur de 
l’intervalle de pari (IP) 


La longueur de l’IP est 2 u a — 

Jn 


la longueur dépend de a 

Si a' < a, la longueur de IPj _ a , est supérieure à la longueur de IP, _ a 


Exemple 

a = 0,05 =f> u g 05 = 1 >96 
a = 0,01 => u o,oi = 2,57 
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la longueur dépend de n 

La longueur de EPj _ décroît avec n .C’est le reflet du fait connu selon lequel les fluctuations 
d’échantillonnage s’estompent avec n 

Exemple 

Dans le cas ci-dessus, si on remplace n = 64 par n = 6400, on obtient 
IP 0 95 = [0,19 ; 0,21] 

Remarque 

Pour réduire dans un rapport 2 la longueur de l’IP, il faut un échantillon 4 fois plus 
grand (2 2 ). 


9.4.3 L’intervalle de pari d’une variable aléatoire 

Ce que l’on a dit pour une moyenne observée peut s’envisager pour une variable X quelconque 
dont on connaît la distribution. 

L’IP de niveau 1 - a est l’intervalle [<3, b] tel que Pr(a <X<b) = 1-a. 

Exemple : 

X ~ N(0, 1) 

IP 1 - a = [““a ^ “J 

Une valeur numérique à retenir : 

pour une variable aléatoire normale centrée réduite IPq ,95 = [-1,96 ; 1,96] 
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Résumé du chapitre 


1. Propriétés de la moyenne arithmétique M n d’une variable aléatoire X, moyenne calculée sur 
n unités statistiques : 


moyenne « vraie » de M n = moyenne « vraie » de X 


variance « vraie » de M n 


variance « vraie » de X 
n 


2. Théorème central limite 

Si X a pour moyenne « vraie » p, pour variance « vraie » g , M n est, lorsque n est suffisam¬ 
ment grand ( n > 30, ou n n et n( 1 - II) > 5), à peu près distribuée comme une variable normale 
de moyenne « vraie » p et de variance « vraie » a /n , ce que l’on écrit : 


M„ ~ N( p,-j ou ^2-^ ~ N(0, 1) 
n y g 

Jn 


3. Intervalle de pari (I. P.) 

Lorsque les conditions ci-dessus sont satisfaites, l’intervalle 


IP 


1 - a 


a a 

p-m — ; p + u — 
Jn Jn- 


a la propriété suivante : 


Pr(M n e IPj.J = 1-a 

Cet intervalle s’appelle intervalle de pari (I. P.) de niveau 1-a, ou intervalle de pari au risque 
a. 
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Chapitre 10 

Estimation - Intervalle de 
confiance 


10.1 Introduction 


Le problème de l’estimation statistique est le suivant : on cherche à connaître les valeurs de cer¬ 
taines caractéristiques d’une variable aléatoire grâce à des observations réalisées sur un échantil¬ 
lon. Un grand nombre de problèmes statistiques consistent en la détermination de la moyenne 
« vraie », sur la base d’observations réalisées sur un échantillon. Cependant, on peut aussi chercher 
à connaître les valeurs d’autres caractéristiques, comme par exemple les variances (exemple c. ci- 
dessous). 

Exemples : 

a. quelle est la fréquence de survenue de tel type de cancer chez les souris ? 

b. quelle est la vraie valeur de la glycémie de ce patient ? 

c. quelle est la variance de la glycémie mesurée chez ce patient ? 

Il est bien sûr impossible de répondre à ces questions au sens strict. 

On y apporte généralement deux types de réponses : 

1. On produit une valeur qui nous semble être la meilleure possible : on parle alors d’estimation 
ponctuelle. 

2. On produit un intervalle de valeurs possibles, compatibles avec les observations. C’est la no¬ 
tion d’intervalle de confiance ou d’estimation par intervalle. 

Dans la suite on note X la variable aléatoire dont on cherche à estimer une caractéristique, aussi 
appelée paramètre, dont la valeur est notée 9. Par exemple le paramètre peut être la glycémie, et sa 
valeur celle du patient considéré. 
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10.2 Estimation ponctuelle 


10.2.1 Définition 


A partir d’un échantillon (A|, X 2 , ..., X n ) de la variable aléatoire X, on construit une nouvelle va¬ 
riable aléatoire t(X j, X 2 , ..., X n ) dont les réalisations « se rapprochent » de la valeur 9. Cette nou¬ 
velle variable est appelée estimateur de 9. Pour simplifier, cette variable t{X^, X 2 , ..., X n ) est notée 


T n ou T. 


1 


Par exemple t(X h X 2 ,..., X n ) = M n = - VI, « se rapproche » de l’espérance de X (voir chapitre 
9 )- 

C’est un estimateur naturel de E[X]. 


10.2.2 Propriétés 

Les estimateurs sont des fonctions des échantillons : ce sont donc des variables aléatoires qui pos¬ 
sèdent une densité de probabilité, et le plus souvent, une moyenne (espérance mathématique) et une 
variance. Ces deux grandeurs permettent de comparer, dans une certaine mesure, les estimateurs 
entre eux. 



Figure 8 : densité de probabilité de 3 estimateurs Tl, T2 et T3 

La figure 8 représente les densités de probabilité de 3 estimateurs Tl, T2 et T3 d’une moyenne p. 

10.2.2.1 Biais 

On voit sur la figure 8 que Tl et T2 sont centrés autour de p, tandis que T3 a pour moyenne p' 
inférieure à p. Cette notion est définie plus précisément de la manière suivante : 

Le biais d’un estimateur, noté B(T), est la différence moyenne entre sa valeur et celle de la quantité 
qu’il estime. On a : 
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fi (T) = fi(T - 0) = fi(T) - 0 

Ici, on a : fi(Tl) = fi (Tl - fa) = fi (Tl) - p = 0 
de même : fi (T2) = 0 

mais : fi(T3) = fi(T3 - p) = fi(T3) - p = fa' - fa < 0 

On dit que Tl et T2 sont des estimateurs sans biais de |a, et que T3 est un estimateur biaisé de (a. 

10.2.2.2 Variance 

La variance d’un estimateur est définie de la manière usuelle : 
varÇT) = E[T - E(T)] 2 

Si deux estimateurs sont sans biais, le meilleur est celui qui a la variance la plus petite : en effet, 
ses valeurs sont « en moyenne » plus proches de la quantité estimée. 

Par exemple, sur la figure ci-dessus, on voit que var(Tl) < var(T2). On peut donc conclure que Tl 
est un meilleur estimateur de p que T2. 

Quand des estimateurs sont biaisés, en revanche, leur comparaison n’est pas aussi simple : un es¬ 
timateur peu biaisé, mais de variance très faible, pourrait même, en pratique, être préféré à un es¬ 
timateur sans biais, mais de variance grande. 

10.2.2.3 Erreur quadratique moyenne 

L’erreur quadratique moyenne est une grandeur permettant de comparer des estimateurs entre eux, 
qu’ils soient biaisés ou sans biais. Elle est définie de la manière suivante : 

EQMÇT) = fi[(T - 0) 2 ] 

On démontre facilement qu’on peut relier l’erreur quadratique moyenne, l’espérance et la variance 
d’un estimateur par l’expression suivante : 

EQMÇT) = varÇT) + [fi(T) - 0] 2 = var(T) + fi (T) 2 

En particulier, l’erreur quadratique moyenne des estimateurs sans biais est égale à leur variance. 
Lorsqu’on compare deux estimateurs, on considère que le meilleur est celui qui présente l’erreur 
quadratique moyenne la plus faible. 


10.2.3 Exemple 

On a souvent utilisé, dans ce cours, les quantités m, moyenne observée, et s , variance observée. 
La variable aléatoire moyenne arithmétique, notée M n , a été étudiée au chapitre 8. De la même ma¬ 
nière, étudions la variable aléatoire variance S n 2 , définie par : 

s; = 

'y 

où M, est la variable aléatoire « moyenne arithmétique de X ». 
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On va calculer E (S n ). On rappelle que si U est une variable aléatoire, la variable moyenne arith¬ 
métique définie sur U a les propriétés suivantes : 

E(M Un ) = E(U ) (1) et var{M Un )= l -var{U) (2) 


On a par ailleurs : 

var(U) = E(U 2 ) - [E(U)] 2 et donc E(U 2 ) = var(U ) + [£(£/)] 2 (3). 

On peut maintenant calculer E(S n ~). Soit X une variable aléatoire d’espérance E(X) = p et de va¬ 
riance var(X ) = g 2 . On a : 

e ( s 2 „) = ^t[£(m 2> „)-ê(m^)] 

Mais E(M 2 n ) = E(X 2 ) = g” + p' d’après (1) et (3), 

2 


et E(M 2 ) = var(M n ) + [E(M n )] 2 = 5-+ p 2 d’après (3), (2) et (1), 

2 


et finalement : E (S ) = 


/7 


n - 1 


2 2 G 2 

G + p-p 

n 


= G 


9 9 

Sn est donc un estimateur sans biais de g . 


10.3 Estimation par intervalle - Intervalle de 
confiance 


Bien que des intervalles de confiance soient définissables pour toute quantité estimée, leur déter¬ 
mination est le plus souvent difficile. Nous nous limiterons donc dans ce cours à la définition des 
intervalles de confiance des moyennes (et proportions) « vraies ». 


10.3.1 Exemple d’une proportion 

L’idée directrice est la suivante : on souhaite associer à une valeur observée p un intervalle appelé 
INTERVALLE DE CONFIANCE qui ait « de bonnes chances » de contenir la valeur « vraie » Il 
de la proportion. Que signifie de « bonnes chances » ? Si l’on effectue un grand nombre de fois 
l’expérience - chaque expérience produisant un pourcentage observé p - on construit autant d’in¬ 
tervalles de confiance. On voudrait qu’un grand nombre de ces intervalles contienne la valeur 
« vraie » II. Par exemple que 95 % des intervalles en gros contiennent II. On parlera alors d’inter¬ 
valle de confiance DE NIVEAU 0,95 ou d’intervalle de confiance AU RISQUE 0,05. On considé¬ 
rera généralement des intervalles de confiance de niveau 1-a. La valeur a sera alors le risque - ou 
la probabilité - pour qu’un intervalle de confiance ne contienne pas la proportion « vraie » II. 
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DE FAÇON GENERALE, L’INTERVALLE DE CONFIANCE AU RISQUE a D’UNE VA¬ 
LEUR QUE L’ON CHERCHE A ESTIMER EST UN INTERVALLE QUI CONTIENT AVEC 
UNE PROBABILITE 1 - a LA VALEUR CHERCHEE ; IL S’AGIT D’UN INTERVALLE QUE 
L’ON DEVRA ETRE EN MESURE DE CONSTRUIRE A L’ISSUE D’UNE EXPERIENCE 
PORTANT SUR UN ECHANTILLON. 

Comment construire de tels intervalles ? C’est facile graphiquement. 

proportion observée 

i i- 


o 





o 


n 


proportion vraie 


Figure 9 
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proportion observée 


i 



P 


o 


o 


i 

proportion vraie 


Figure 10 


Considérons la figure 9. On a porté en abscisses une échelle 0-1 de mesure de proportions 
« vraies », en ordonnées une échelle de mesure de proportions observées. Donnons nous une valeur 
de proportion « vraie » ; on sait associer à cette valeur un intervalle de pari de niveau 0,95 de la 
proportion observée que l’on est susceptible d’obtenir au cours d’une expérimentation conduite 
sur n individus. Cet intervalle de pari peut être représenté sur l’échelle verticale. Si l’on opère cette 
représentation pour toutes les valeurs possibles d’une proportion « vraie », on obtient un domaine 
limité par les deux courbes représentées sur la figure. 

Considérons alors un problème mettant en jeu une proportion « vraie », n. Supposons que nous 
fassions un ensemble d’expériences, chaque expérience portant sur n individus étant productive 
d’une valeur de proportion observée p . On peut associer à chacune de ces expériences un point de 
coordonnées (n, p ) sur la figure 9. Compte tenu de la construction précédente, on peut affirmer 
que ces points appartiendront 95 fois sur cent (c’est-à-dire dans 95 % des expériences) au domaine 
limité par les deux courbes, et ceci quelle que soit la valeur de n. 

Maintenant supposons qu’une expérience unique ait été réalisée, produisant une valeur de propor¬ 
tion, p . Le problème est, sur la base de cette valeur, de définir un intervalle ayant de bonnes chances 
de contenir la valeur inconnue de la proportion « vraie ». La solution, immédiate, est fournie par la 
figure 10. Il suffit de trancher le domaine limité par les deux courbes DANS L’AUTRE SENS. Cet 
intervalle contiendra 95 fois sur cent la véritable valeur de la proportion. 

Ainsi, si on adopte cette stratégie de construction, on aura pour chaque valeur observée p un in¬ 
tervalle qui contiendra El avec la probabilité 0,95. 

Le problème est résolu. Maintenant, ce qui est simple sur un dessin est compliqué en termes de 
calcul et il existe des tables d’intervalles de confiance et des formules toutes faites permettant de 
former des intervalles de confiance approchés. 
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10.3.2 Intervalle de confiance approché d’une proportion 
« vraie » 


On montre qu’une bonne approximation de l’intervalle de confiance de niveau 1 - a de II, fondé 
sur la valeur observée p, p étant calculée sur n individus, est donnée par l’intervalle ci-dessous : 


IC 


1 - a 




Notons n min et n max les bornes de cet intervalle. 

Cette approximation n’est jugée satisfaisante que sous les CONDITIONS DE VALIDITE 
suivantes : «n min >5,«(l-II max )>5 


LORSQUE LES CONDITIONS DE VALIDITE NE SONT PAS REMPLIES, IL FAUT AVOIR 
RECOURS A DES TABLES (hors programme). 


Exemple : 




IC 


0,95 


0,12- 1,96./23^H; 0,12 + 1,96 


conditions de validité 
100 x 0,06 = 6 > 5. 

100 x(l -0,18) = 82 >5. 


[0,06 ; 0,18] 


10.3.3 Intervalle de confiance approché d’une moyenne 
« vraie » (variable continue) 


De même, il existe une expression approchée pour l’intervalle de confiance de niveau 1 - a d’une 
moyenne « vraie » p, intervalle fondé sur la valeur observée m obtenue après une expérience por¬ 
tant sur n individus. Le calcul de cet intervalle suppose en outre le calcul de la variance observée 
s . L’expression est la suivante : 


IC 


1 - a 


S S 

m - n —- ; m + u„ — 


TU 


L’approximation ci-dessus n’est jugée satisfaisante que sous la 
CONDITION DE VALIDITE : n > 30. 


Lorsque cette condition n’est pas remplie, on ne sait plus former d’intervalle de confiance sauf si 
l’on peut supposer que la variable primitive X d’intérêt est normale. 

Si la variable étudiée est NORMALE, alors, et sans autre condition de validité, un intervalle de 
confiance de niveau 1 - a a pour expression : 


IC 


1 - a 




m + 
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où t a est associé à une nouvelle distribution, dite de Student, à (n-\) degrés de liberté (voir section 
7.2.3 page 71). La notation t a s’apparente à la notation u a et est explicitée table A.6 page 179. 


Remarque (pour une variable normale encore) 

Si la variance « vraie » de la variable étudiée, cr, est connue, l’intervalle de confiance a la forme 
suivante : 


IC 


1 - a 


a a 

m - u a~~F ; m + u a~r 

*jn Jn-i 


10.3.4 Applications 

L’intervalle de confiance exprime fondamentalement, comme son nom l’indique, la confiance que 
l’on peut attribuer à un résultat expérimental. 

IDEALEMENT TOUT PROBLEME D’ESTIMATION DEVRAIT ETRE PRODUCTIF D’UN 
INTERVALLE DE CONFIANCE. Ne donner qu’une estimation ponctuelle masque l’incertitude 
qui accompagne tout résultat. 

Exemple : supposons qu’étudiant la fréquence d’un événement, on ait obtenu une fréquence ob¬ 
servée p égale à 0,12. 

Supposons que cette valeur ait été obtenue sur la base de 8 individus (l’événement étudié s’est donc 
réalisé une fois). On peut lire dans une table spécialisée que l’intervalle de confiance de la fré¬ 
quence « vraie » est, au risque 0,05 [0,003 ; 0,527]. Cela signifie que cette valeur observée de 12 % 
sur si peu d’individus ne fait qu’indiquer ceci : la fréquence « vraie » se situe dans le domaine 3 %o, 
52,7 %. 

Supposons que cette même valeur 12 % ait été obtenue sur la base de 100 individus (l’événement 
étudié s’est réalisé 12 fois au cours des 100 essais). L’intervalle de confiance associé est alors 
proche de [0,06 ; 0,18]. Sur la base de cette valeur 12 %, on est maintenant en mesure d’affirmer, 
acceptant toujours un risque d’erreur de 5 pour cent, que la fréquence « vraie » se situe dans le do¬ 
maine 6 %, 18 %, domaine beaucoup plus étroit que le précédent. 

De façon générale, la longueur de l’intervalle de confiance indique la précision obtenue. Les deux 
exemples qui suivent montrent l’usage que l’on peut en faire. 


10.3.4.1 Précision d’un sondage 

Supposons que l’on s’apprête à réaliser un sondage pour estimer la prévalence d’une maladie, 
c’est-à-dire la proportion de la population atteinte par cette maladie à la date du sondage. On sou¬ 
haite un résultat précis, c’est-à-dire que l’on souhaite par exemple que l’intervalle de confiance ré¬ 
sultant ait une longueur au plus égale à 0,04, avec un risque d’erreur de 5 %. 

On remarque que la longueur de l’intervalle de confiance ne dépend que d’une seule grandeur 
contrôlable, le nombre d’individus. La question est donc : combien d’individus faut-il inclure dans 
le sondage ? 

Ce problème est simple, puisque la longueur de l’intervalle de confiance s’établit à : 
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2 x 1,96 qu’on arrondit ici à 4 

L’effectif de l’échantillon devra donc être au moins 10000 p( 1 - p). 

Toutefois, cet effectif dépend de p, inconnu avant l’expérience. L’usage de ces calculs supposera 
donc que l’on ait une idée du résultat attendu, grâce à un sondage exploratoire par exemple ou grâce 
à une connaissance préalable du phénomène étudié. 

De façon générale, si l’on souhaite obtenir un intervalle de confiance d’une proportion de longueur 
2 i, il est nécessaire d’inclure un nombre d’individus au moins égal à : 

A p(l-p) • „ , 2p( 1 — p) . . 

4—— au ns que 0,05 (ou u a 9 au risque a) 

i i 

REMARQUE 

Lorsque le sondage est réalisé, un intervalle de confiance lui est associé. Dans le langage courant, 
les instituts de sondage nomment ces intervalles de confiance des FOURCHETTES. 


10.3.4.2 Précision d’une moyenne 

Dans le cas où l’on s’intéresse à la moyenne « vraie » d’une variable quantitative, on peut effectuer 
le même type de calcul. Pour obtenir un intervalle de confiance de longueur 2 i, il faut inclure un 
nombre d’individus au moins égal à : 

2 

2 S 

n = U a -~2 

l 

L’exploitation de ce calcul nécessite ici une connaissance, même approximative, de la variance de 
la variable étudiée pour se donner a priori s - ou mieux a . 

Exemple très important : les problèmes de dosage. 


Soit à doser la glycémie ; on a devant soi un échantillon de sang. Quelle est la concentration en 
glucose ? Si on fait plusieurs dosages, on va obtenir plusieurs résultats. Cela est dû, non à la varia¬ 
bilité de la glycémie, mais aux erreurs analytiques. On assimile la glycémie « vraie » à la moyenne 
« vraie » de la variable aléatoire « résultat du dosage ». Supposons que l’on connaisse la variance 
des résultats, car on connaît bien la technique analytique. Par exemple, a = 10 mg.T 1 . Supposons 
en outre que les résultats expérimentaux soient distribués normalement. 

Si on effectue un dosage donnant 90 mg.T 1 , on a pour intervalle de confiance approché (a étant 
connu): 

ICo,95 = [90 - 2a ; 90 + 2a] = [70 ; 110] soit un intervalle de longueur 40. 

Si on effectue deux dosages donnant 90 et 96 mg.T 1 , on a 


IC 


0,95 


93-2-^z ; 93 + 2-^z 

J2 V2J 


soit un intervalle d’amplitude 28,2. 


[78,9 ; 107,1] 
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Estimation - Intervalle de confiance 


Si l’on effectue trois dosages donnant 90, 96 et 93 mg.l" 1 on a 


IC 


0,95 


a 


a 


93 - 2—~ ; 93 + 2 ^ 

73 73 ^ 

soit un intervalle d’amplitude 23,0. 


[81,5 ; 104,5] 


Ces calculs objectivent le fait bien connu selon lequel la répétition des dosages permet d’atténuer 
les conséquences des erreurs expérimentales. Certains dosages - certaines mesures (tension 
artérielle) - sont répétés avant qu’une valeur soit indiquée. 
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Chapitre 11 

Les tests d’hypothèses. 
Principes 

Les tests d’hypothèses sont fondés sur les intervalles de pari. 

11.1 Un exemple concret (emprunté à 
Schwartz) 


Une variété de souris présente des cancers spontanés avec un taux (une fréquence ou proportion 
dans la population) constant bien connu, cp = 20 %. On se demande si un traitement donné modifie 
ce taux (en plus ou en moins), c’est-à-dire est actif. Pour répondre à cette question on procède à 
une expérience sur 100 souris ; il s’agira, au vu du pourcentage observé p d’animaux cancéreux, 
de dire si le traitement est actif. Il n’est pas possible de répondre au sens strict à cette question. 

Supposons que le traitement soit sans effet ; alors chaque souris traitée aura toujours 20 chances 
sur 100 de devenir cancéreuse. Mais le pourcentage de souris cancéreuses, calculé sur un échantil¬ 
lon de 100 souris sera soumis aux fluctuations d’échantillonnage que l’on a étudiées. Le pourcen¬ 
tage observé (moyenne observée) pourra prendre a priori, c’est-à-dire avant expérience, plusieurs 
valeurs, même si les valeurs voisines de 0,2 sont les plus probables. Des valeurs de 0 ou 100 % 
pourraient même être observées. Ainsi même si le pourcentage observé est très différent de 20 %, 
il est possible que le traitement soit sans effet. 

Supposons maintenant que le traitement soit actif ; la probabilité de cancer pour chaque souris (ou 
la proportion « vraie » de souris cancéreuses dans une population fictive de souris traitées) est (pj, 
différente de 0,2. Encore à cause des fluctuations d’échantillonnage, on pourra très bien, peut être 
de façon peu probable, obtenir une fréquence observée égale à 20 %. Ainsi même si le pourcentage 
observé est 20 %, il est possible que le traitement soit actif. 

On ne peut donc répondre avec certitude à la question posée. 

Pourtant ne pas répondre serait renoncer à considérer tous les problèmes liés à la variabilité, c’est- 
à-dire à « tous » les problèmes biologiques. Alors on répondra, mais en acceptant un risque d’er¬ 
reur. Répondre correspond à la démarche que chacun adopterait ; par exemple, déclarer le traite - 
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ment actif si le taux observé de cancers après traitement s’écarte « nettement » de 20 %. C’est le 
sens que l’on peut donner à ce « nettement » qui est le fondement du principe des tests. 

Dans le cas étudié, on aurait tendance à s’y prendre de la façon suivante. Deux hypothèses sont en 
présence : 

• le traitement est inactif, 

• le traitement est actif. 

La première hypothèse est plus « fine » que la seconde car elle porte en elle une interprétation 
numérique : le pourcentage « vrai » de souris cancéreuses parmi les souris traitées est 0,2 - l’autre 
hypothèse indiquant seulement que ce pourcentage est différent de 0,2 ; ce qui est plus vague. Sup¬ 
posons alors vraie l’hypothèse la plus fine. Il devient possible de faire des déductions : sachant ce 
qui se passe au niveau de la population des souris traitées on peut en déduire ce qui se passera au 
niveau d’un échantillon. En particulier, on sait construire les intervalles de pari centrés de niveau 
1 - a pour la fréquence observée. 

Par exemple, prenant a = 0,05 et n = 100 souris, on obtient IPq ,95 = [0,12 ; 0,28] 

Cela signifie, rappelons-le, que si cp = 0,2 (fréquence supposé « vraie »), 95 % des valeurs des 
moyennes observées calculées sur 100 individus appartiendront à l’intervalle [0,12 ; 0,28]. 

On adopte alors la stratégie suivante : si la valeur observée de la fréquence de souris cancéreuses 
parmi les 100 traitées appartient à cet intervalle, on considère que cette valeur est compatible avec 
les fluctuations d’échantillonnage et l’activité du traitement n’est pas prouvée. Si la valeur obser¬ 
vée n’appartient pas à cet intervalle, le traitement sera considéré comme actif. Dans ce dernier cas 
le raisonnement est le suivant. Cet événement (la fréquence observée est à l’extérieur de l’inter¬ 
valle de pari) avait moins de 5 chances sur 100 de se produire et pourtant il s’est produit ; donc je 
ne crois plus à l’hypothèse qui m’a permis de déduire ces 5 % de chances. 

Remarque : reformulation des calculs 

Notons p la proportion observée de souris traitées développant un cancer, sur les n souris traitées. 

Le résultat du test sera de conclure ou non à l’activité du traitement selon que p g ou e IPj_ a 
c’est-à-dire : 


pi ou e 




<Po(l-<Po) 


; (p 0 + u c 


<Po(l-<Po)‘ 


où cpo est l a proportion hypothétique (0,2 dans l’exemple) et u a la borne de l’intervalle de pari au 
risque a de p. 

On suppose ici que les conditions du théorème central limite sont satisfaites. On conclut donc selon 
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que 


p - cp 0 £ ou e 


—u n 


KCi-tPo) /<Po(l-<Po)' 


; u r 


ou encore selon que 


P-V o 


/(Po(l - cp 0 ) 


^ ou e [-«_ ; uj 


On reconnaît dans la dernière expression l’intervalle de pari IP l a d’une variable aléatoire 
N(0, 1), intervalle indépendant de l’expérience projetée. 

C’est comme cela que l’on abordera généralement les tests ; on cherchera à construire une variable 
aléatoire dont on connaisse, si l’hypothèse fine est vraie, la distribution, pour pouvoir construire un 
intervalle de pari ; ici il s’agirait de la variable aléatoire Z déduite de la variable aléatoire moyenne 
arithmétique selon : 


P n ~ ( Po 
/(Poü-CPo) 


avec cpo = 0,2 (transcription de l’hypothèse). 


Une telle variable aléatoire s’appelle usuellement « paramètre » du test et est notée conventionnel¬ 
lement Z. Ici on sait que Z ~ N(0, 1) et l’on construit l’intervalle de pari de niveau 1 - a pour Z. 
Par exemple avec a = 0,05 , IPq, 95 = [-1,96 ; 1,96]. 


Puis on réalise l’expérience ce qui permet d’obtenir p, valeur observée de P n , donc une valeur ob¬ 
servée de Z, notée u : 

P -«Po 


M>o(l-tPo) 


On pourrait alors s’exprimer comme ceci (une terminologie plus précise sera indiquée plus loin) : 


• si z e IP 0 95 on ne peut pas dire que le traitement est actif 

• si Z £ IP 0 , 95 le traitement est actif. 

Nous allons, à la lumière de cet exemple, énumérer les étapes de mise en œuvre d’un test et revenir 
sur différents aspects (sens de a par exemple) avant de donner d’autres exemples de tests usuels 
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11.2 Principe général des tests d’hypothèses 


La mise en œuvre d’un test statistique nécessite plusieurs étapes. 


11.2.1 Les étapes de mises en œuvre 


Etape 1 


Avant le recueil des données. 

Définir avec précision les deux hypothèses en présence H 0 et H j. H 0 et H, jouent toujours 
des rôles dissymétriques. 

Le plus souvent, une des hypothèses est précise, ou fine. Elle engage une égalité 
généralement ; c’est elle qui sera H 0 et on l’appellera hypothèse nulle, 

H 0 : hypothèse nulle 

Exemple : la fréquence « vraie » d’apparition du cancer chez les souris traitées est 0,2, ce 
qui se transcrit par cp = 0,2 (plus généralement (p = cp 0 ). 

Le principe des tests est d’admettre cette hypothèse H 0 sauf contradiction flagrante entre 
ses conséquences et les résultats expérimentaux. 

L’autre hypothèse est toujours plus vague ; elle regroupe toutes les hypothèses, hormis 
H 0 . C’est H , et on l’appellera hypothèse alternative, 

H ] : hypothèse alternative 

Exemple : la fréquence « vraie » d’apparition du cancer chez les souris traitées est diffé¬ 
rente de 0,2, qui se transcrit par cp ^ 0,2 (généralement (p * cp 0 ). 

Remarque : la formulation de ces hypothèses nécessite généralement une traduction et une 
simplification du problème médical sous-jacent. 


Etape 2 


Avant le recueil des données. 

On suppose que H 0 est vraie et on cherche à définir une variable aléatoire (ou paramètre) 
dont on connait alors la distribution. En d’autres termes, on cherche à construire une fonc¬ 
tion des données à venir dont on connait la distribution si H 0 est vraie. Soit Z cette variable 
aléatoire. 


Exemple : Z = ?n 90 ~ N(0, 1) 

/(Poü-cpo) 


n 
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Si possible, vérifier les conditions de validité. 

Etape 3 

Avant le recueil des données. 

Choisir un seuil. Typiquement a = 0,05 (une quasi obligation en pratique) 

Construire un intervalle de pari (pour le paramètre Z) de niveau 1 - a, noté EPj _ a . Rappe¬ 
lons qu’il s’agit d’un intervalle tel que si H 0 est vraie, alors 


P(Z e IP 1 _ a ) = 1 - a 


Exemple : IP, _ a pour Z ci-dessus = [-1,96 ; 1,96] 

Définition : l’extérieur de l’intervalle de pari IP, _ a s’appelle région critique du test au 
seuil a. 

Etape 4 

Avant le recueil des données. 

Définir la règle de décision. Les données vont permettre de calculer une valeur de Z, que 


l’on note z. 


P réellement observé 'Po 


Exemple : z = 



Alors décider que : 

• si z appartient à la région critique, remettre en cause H 0 , 

la rejeter, et conclure Hj est vraie, ou dire : « au risque a, H 0 est rejetée ». 

• si z n’appartient pas à la région critique, mais à l’intervalle de pari IPj _ a , dire que 
l’on ne conclut pas, ou dire que l’on ne rejette pas l’hypothèse nulle H 0 . 

Etape 5 

Recueil des données 

Réaliser l’expérience. On recueille les données x\, ..., x n ; calculer z et conclure. 

Si non fait à l’étape 2, vérifier les conditions de validité. 

Etape 6 

Interprétation des résultats 

Cette étape concerne l’interprétation des résultats en des termes compatibles avec le pro¬ 
blème médical initialement soulevé, et concerne en particulier le problème de la causalité. 
Ce point sera détaillé au chapitre 15. 

Exemple : dans le cas des souris, et en cas de conclusion au rejet de l’hypothèse nulle, la 
question serait de savoir si ce rejet exprime véritablement une activité du traitement. 
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11.2.2 Justification de la règle de décision. Choix de a 


11.2.2.1 Interprétation de a 

On a déjà vu une interprétation de a avec l’exemple des souris. De façon générale, a est la proba¬ 
bilité pour que la valeur observée - ou calculée - z appartienne à la région critique si H 0 est vraie. 
Si cet événement se réalise, on rejette H 0 . Cela ne se justifie que si a est petit car alors on dit : voilà 
un événement qui avait lOOxa % chances de se réaliser (5 % par exemple) - donc peu de chances - 
et qui pourtant s’est réalisé : les résultats ne sont pas conformes à l’hypothèse => a doit être petit. 
Une autre interprétation de a montre encore mieux que a doit être petit. A nouveau, lorsque H 0 est 
vraie, la probabilité d’obtenir un résultat z dans la région critique est a. Mais alors on dit « Hj est 
vraie ». Donc 

=^> a = « probabilité » de conclure H, alors que H 0 est vraie 

C’est un risque d’erreur qu’il convient de situer dans des valeurs acceptables (petites). 

Cette valeur a s’appelle RISQUE DE PREMIERE ESPECE. 

Cela veut dire que sur un grand nombre d’expériences, en admettant a, on conclura à tort dans 
lOOxa % des cas (5 % des cas par exemple). Pourquoi alors ne pas choisir un a microscopique ? 

11.2.2.2 Effet d’un changement de valeur de a 

Les intervalles de pari croissent lorsque leur niveau augmente, c’est-à-dire lorsque a diminue. 

IP 

-t-i- 

ip 

f-ï- 

ip 

a = 0,01 -f-î- 

Donc, toutes choses égales par ailleurs, la région critique diminue lorsque a décroît. Donc on re¬ 
jette moins fréquemment H 0 . 

A vouloir commettre moins d’erreurs, on conclut plus rarement. 

On s’expose donc à un autre risque : celui de ne pas conclure alors qu’il le faudrait car H 0 est 
fausse. A la limite, si on se fixe a = 0, on ne conclut jamais, H 0 n’est jamais rejetée. 

Prendre une décision, c’est accepter un risque. 

Pour finir avec ce problème de a il faut retenir : 


a = 0,1 
a = 0,05 
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La valeur de a doit être fixée a priori : jamais en fonction des données 
Pire que cela, on choisit la valeur a = 0,05 qui est un compromis entre le risque de conclure 
à tort et la faculté de conclure, compromis adopté par l’ensemble de la communauté scienti¬ 
fique. 


11.2.3 Justification des conclusions du test. Puissance d’un 
test 


On comprend maintenant la partie de la règle de décision conduisant au rejet de H 0 lorsque la va¬ 
leur calculée du paramètre n’appartient pas à l’intervalle de pari. On a par ailleurs indiqué (voir 


l’étape 4 de mise en œuvre des tests) que lorsque la valeur calculée du paramètre appartient à l’in¬ 
tervalle de pari, c’est-à-dire lorsque les résultats expérimentaux ne sont pas contradictoires avec 
l’hypothèse nulle, on s’exprime avec beaucoup de précautions oratoires puisqu’on demande de 
dire : « on ne conclut pas » ou « on ne rejette pas l’hypothèse nulle ». Pourquoi ne pas affirmer plus 
directement « l’hypothèse nulle est vraie » ? 

Premier élément 

En faisant cela, on adopte une démarche qui s’apparente à la démarche scientifique qui 
consiste à admettre une théorie jusqu’à la preuve de son échec. Lorsque l’on dit 
« admettre » on ne signifie pas que la théorie est vraie mais qu’elle rend compte pour 
l’instant - jusqu’à plus ample informé - des expériences. 

Exemples 

— la mécanique générale admise jusqu’à la théorie de la relativité 

— la mécanique céleste 

Second élément 

Supposons que l’on mette en parallèle les deux tests suivants : 


H 0 : cp — 0,2 
H j : cp ^ 0,2 


H 0 : cp = 0,200001 
Hj : cp ^ 0,200001 


Les paramètres calculés, soit 


0,2 0,200001 



seront extrêmement voisins, donc les conclusions pratiquement toujours les mêmes. 
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Considérons alors une expérience au cours de laquelle z e IP 0 95 pour les deux valeurs cal¬ 
culées. Peut-on conclure à la fois cp = 0,2 et cp = 0,200001 ? Pourtant on peut remarquer 
qu’il n’y a pas de vice de fond au niveau de la formulation des hypothèses car il existe bien 
une valeur « vraie », c’est-à-dire qu’il y a vraiment une hypothèse vraie du type (p = 
quelque chose. 

On retient : les tests ne sont pas faits pour « démontrer » H 0 , mais pour la rejeter. 

Cela ne veut pas dire que l’on est toujours content de rejeter H 0 . 

Exemples 

• cas des souris traitées. Là on aimerait probablement rejeter H 0 , c’est-à-dire conclure à 
l’activité du traitement. 

• cas d’un test d’homogénéité. On vous livre un nouveau lot de souris ou des souris d’un 
autre élevage. Vous voulez continuer vos recherches. La première chose à faire est de 
tester l’hypothèse selon laquelle ces nouvelles souris sont similaires aux précédentes 
vis-à-vis du taux de cancer, => H 0 : (p = 0,2. Mais là vous espérez bien ne pas rejeter 
H 0 . C’est à cette condition que vous pouvez continuer. 

PUISSANCE D’UN TEST 

Revenons à la conclusion « l’activité du traitement n’est pas démontrée ». Sous entendu 
compte tenu de l’expérience effectuée. Cela n’a de sens de s’exprimer comme cela que s’il 
est pensable qu’une autre expérience, plus complète par exemple, puisse montrer cette ef¬ 
ficacité si elle existe. 

C’est le cas, en effet. L’aptitude d’un test à rejeter l’hypothèse nulle alors qu’elle est fausse 
est limitée. Précisément : 

On appelle PUISSANCE D’UN TEST P la probabilité de rejeter l’hypothèse nulle, face à 
une hypothèse alternative, alors qu’elle est fausse. 

La valeur complémentaire à 1 de cette puissance, c’est-à-dire la probabilité de ne pas rejeter 
l’hypothèse nulle alors que l’hypothèse alternative est vraie, s’appelle le RISQUE DE 
DEUXIEME ESPECE et se note conventionnellement p : p = 1 - P. 

Le calcul de la puissance d’un test est une opération complexe. La difficulté tient essentiel¬ 
lement au fait que l’hypothèse alternative est vague. Pour contourner cette difficulté et ap¬ 
précier plus étroitement cette notion de puissance, considérons le cas d’une hypothèse 
alternative fine. Par exemple, reprenant l’exemple des souris, supposons que l’hypothèse 
H 1 soit (p = 0,3, l’hypothèse H 0 restant inchangée, c’est-à-dire (p = 0,2. Dans ces conditions, 
il est possible de calculer la distribution de la proportion observée, non plus seulement sous 
l’hypothèse nulle, mais également sous l’hypothèse alternative. On obtient : 

• sous l’hypothèse nulle (cp = 0,2) : P n ~ N^0,2, 

• sous l’hypothèse alternative ((p = 0,3) : P n ~ N^0,3, ^ 
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Figure 11 : risque de deuxième espèce d’un test 

La figure 11 présente les deux distributions correspondantes, pour une certaine valeur de 
n . Supposons alors juste l’hypothèse H | ; la valeur observée p sera issue de la distribution 
de droite, et l’on conclura à tort au non rejet de H 0 avec une probabilité égale à l’aire grisée, 
puisque cette aire est la probabilité pour que la valeur observée appartienne à l’intervalle 
de pari associé au test, sachant que cette valeur observée est gouvernée par la distribution 
associée à Hj. Ainsi la valeur de cette aire grisée exprime le risque de deuxième espèce P, 
son complémentaire à 1 la puissance du test. 

Supposons pour fixer les idées que la valeur de cette aire soit 0,4. Cela signifie que si les 
hypothèses sont (p = 0,2 et cp = 0,3, on aura « 6 chances sur dix » seulement de rejeter l’hy¬ 
pothèse (p = 0,2 lorsque (p sera égal à 0,3. Autrement dit, 4 fois sur dix, on sera incapable 
de détecter que (p vaut 0,3 et non 0,2. 



Figure 12 : risque de deuxième espèce d’un test 


Par ailleurs, on perçoit que plus les hypothèses H 0 et H | sont contrastées (par exemple les 
hypothèses (p = 0,2, (p = 0,4 sont plus contrastées que les hypothèses (p = 0,2, (p = 0,3), plus 
les distributions de P n sous ces deux hypothèses sont « éloignées », et plus la puissance est 
grande. C’est la raison pour laquelle on dit souvent que la notion de puissance est proche 
de la notion de pouvoir discriminant entre hypothèses. 
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La figure 12 reproduit les conditions de la figure 11, mais avec une valeur de n accrue. Au¬ 
trement dit le même test est mis en œuvre, mais sur un nombre d’unités statistiques supé¬ 
rieur. On constate sur cette figure que le risque de deuxième espèce est très faible. Ce 
résultat est général : 

TOUTES CHOSES EGALES PAR AILLEURS, LA PUISSANCE D’UN TEST AUG¬ 
MENTE AVEC LA TAILLE DE L’ECHANTILLON 

Remarque 

Les calculs de puissance ébauchés ci-dessus, joints au résultat précédent, permettent de ré¬ 
pondre à des questions du type : 

• combien de sujets est-il nécessaire d’inclure dans un essai pour avoir de bonnes 
chances (9 chances sur dix par exemple) de mettre en évidence une différence entre 
proportions « vraies » d’au moins 0,1 ? 

• si je dispose de 100 sujets, quelle différence minimum entre proportions « vraies » 
suis-je capable de détecter avec une probabilité de 0,9 ? 

Des formules de la relation entre puissance et taille des échantillons seront données dans le 
chapitre 12. 

Les développements ci-dessus montrent que lorsque vous n’avez pas rejeté l’hypothèse 
nulle, vous pouvez toujours dire que c’est un manque de puissance du test puisque H 0 est 
sans doute fausse (pensons à cp = 0,2 exactement). On peut donc dire qu’avec un plus grand 
nombre d’individus vous auriez rejeté H 0 . Cela justifie l’expression « l’activité du traite¬ 
ment n’est pas démontrée ». 

Cependant il faut être réaliste : reprenons l’exemple des souris traitées ou non traitées. 
Vous avez réalisé votre expérience sur un échantillon de 1000 souris. Résultat du test : non 
rejet de H 0 c’est-à-dire l’activité n’est toujours pas démontrée. Il n’est pas raisonnable dans 
ces conditions d’évoquer un manque de puissance du test ; ce résultat suggère plutôt une 
très faible activité du traitement, si elle existe. 


11.2.4 Amélioration de l’interprétation du rejet de H 0 

11.2.4.1 Notion de degré de signification 

Supposons que l’on réalise un test au risque ou seuil a = 0,05. 

Considérons deux expériences conduisant au rejet de H 0 , pour lesquelles on a obtenu des valeurs 
calculées du paramètre z \ et z 2 représentées ci-dessous. 

On aurait envie de rejeter plus fortement H 0 dans le second cas que dans le premier. En effet, consi¬ 
dérons des intervalles de pari pour z, de niveau croissant à partir de 0,95. 
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IP 0,95 

I p 0,97 

IP 0,99 

IP 0,999 


*1 <-2 



On observe que Z\ est à l’extérieur des intervalles de pari jusqu’au niveau 0,97, que z 2 est à l’ex¬ 
térieur des intervalles de pari jusqu’au niveau 0,999. Cela signifie que, en ce qui concerne la pre¬ 
mière expérience, H 0 aurait été rejetée même si on avait limité le risque d’erreur à 1 - 0,97 = 0,03 
(soit 3 %), et que, en ce qui concerne la seconde, H 0 aurait été rejetée même si on avait limité le 
risque d’erreur à 1 - 0,999 = 0,001 (soit 1 %c). C’est ce pseudo risque d’erreur que l’on appelle de¬ 
gré de signification et qui mesure la force avec laquelle on rejette H 0 . 

Ce degré de signification est noté p : plus il est petit, plus confortable est le rejet. 


Si l’on veut une définition plus précise : 

Définition 

Lorsque H 0 est rejetée, on appelle degré de signification d’un test le risque associé au plus grand 
intervalle de pari qui ne contient pas le paramètre calculé z. 

Calcul pratique du degré de signification 

On cherche dans la table la valeur de p pour laquelle u p = z, u p étant du type u a 
Exemple: z = 2,43. 

On trouve dans la table üq q , 2 = 2,32 et üq 0 i = 2,57 
alors p e [0,01 ; 0,02] 

La valeur exacte ne se trouve pas dans la table : on dira p < 0,02. Le plus grand intervalle de pari 
ne contenant pas z est de niveau > 0,98, ou au risque < 0,02. 

La plupart des résultats de tests s’expriment avec ce degré de signification : 

• On réalise le test (avec un risque a = 0,05) 

• Si H 0 est rejetée, on calcule ou on évalue le degré de signification p 

• Si H 0 n’est pas rejetée, on ne calcule pas p. 


11.2.4.2 Orientation du rejet 

Le rejet de H 0 correspond généralement à l’une des deux situations : 

• rejet car z est trop petit (inférieur à la borne inférieure de l’intervalle de pari) 

• rejet car z est trop grand (supérieur à la borne supérieure de l’intervalle de pari) 
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Dans le cadre de l’exemple précédent, chacune de ces situations correspond généralement à des 
commentaires radicalement différents. Par exemple : 
z est trop petit <=> le traitement est efficace 
z trop grand <=> le traitement est nuisible 


11.3 Rappels et précisions 

1. LES TESTS PRENNENT EN COMPTE DES HYPOTHESES SYNTHETIQUES 

On a vu que les tests reposent sur l’énoncé de deux hypothèses exclusives. Il y a parfois beau¬ 
coup de chemin à parcourir entre la formulation d’un problème médical et sa formulation en 
termes statistiques. Reprenons l’exemple des souris de ce chapitre. Le problème fondamental 
est celui de l’activité du traitement. Cette activité peut avoir bien d’autres manifestations que 
la modification de la fréquence d’apparition des cancers. On peut penser à un effet portant sur 
l’âge de survenue de la maladie, portant sur la vitesse de développement des tumeurs etc... 
On ne peut répondre simultanément à toutes ces questions, par l’intermédiaire d’un test du 
moins : les tests ne permettent de répondre qu’à des questions simples. 

2. ON NE CHOISIT PAS LE SEUIL DE SIGNIFICATION 

Que dirait-on d’un médecin annonçant : j’aime le risque alors j’ai choisi un risque a de 0,4 et 
le traitement que je propose est efficace (ou actif) à ce risque ? 

a = 0,05 est conventionnel 

3. ON NE DIT PRATIQUEMENT JAMAIS : L’EXACTITUDE DE L’HYPOTHESE NULLE 
EST DEMONTREE 

4. ON N’ENCHAINE PAS LES TESTS DE FAÇON INCONSIDEREE 
En effet, les risques de conclusion à tort augmentent alors. 

Par exemple, supposons que Ton veuille tester l’égalité à une valeur donnée de deux propor¬ 
tions (ex : succès d’une intervention chirurgicale dans deux services hospitaliers, le pourcen¬ 
tage de succès sur la France étant par ailleurs connu (données de Tannée précédente par 
exemple)). Que se passe-t-il si Ton effectue deux tests successifs dont les hypothèses nulles 
sont : 

service 1 : cp 1 = cp 0 ; puis service 2 : cp 2 = cp 0 . 

Le risque de première espèce global de la procédure exprime la probabilité de dire au moins 
une fois (soit au cours du premier test soit au cours du second) H ] alors que H 0 est vraie les 
deux fois : 

Prfconclurc Hj au moins une fois si H 0 est vraie) = 1 - Pr( ne rejeter H 0 aucune des deux fois 
si H 0 est vraie) 
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Or Pr (ne pas rejeter H 0 si H 0 est vraie) = 1 - a 

Donc Pr (ne rejeter H 0 aucune des deux fois si H 0 est vraie) = (1 - a) 2 

d’où un risque total = 1 - (1 - a) 2 

Exemple 

Si a = 0,05, le risque global est environ 0,10. 

Cette situation s’aggrave si le nombre de tests s’accroît. Ainsi, dans le cas de 

— 3 services le risque global est 0,14 

— 10 services le risque global est 0,40 

— 100 services le risque global est 0,994 

Cela signifie par exemple que dans le cas où 10 services sont à comparer à une référence il y 
a 4 chances sur 10 pour qu’au moins une fréquence observée s’écarte de façon significative 
de la valeur de référence, alors qu’en réalité tous les résultats sont homogènes. Si l’on prend 
la fréquence observée la plus différente de la valeur de référence, le test permettra de conclure, 
à tort, avec une probabilité supérieure à 0,4. 

En fait, lorsque l’on désire faire des comparaisons multiples, des tests spécifiques doivent être 
utilisés de façon que les conclusions puissent être tirées avec un risque d’erreur a global de 
5 %. 

5. IL EST DANGEREUX ET ERRONE DE CHOISIR LES HYPOTHESES AU VU DES 
DONNEES 

Lorsque l’on opère de cette façon, on a en réalité réalisé plus ou moins consciemment un 
nombre indéterminé de tests que Ton a jugés non concluants. 

LA STRATEGIE D’ANALYSE DES DONNEES DOIT ETRE FIXEE CLAI¬ 
REMENT AVANT LA REALISATION DE L’EXPERIENCE 
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Résumé du chapitre 

A. Etapes de mise en œuvre des tests : 

1. Examiner le problème médical, aboutir à une formulation sous forme d’une question 
simple mettant enjeu deux hypothèses H 0 (précise, dite hypothèse nulle) et H ( (contraire 
de H 0 , dite hypothèse alternative). Enoncer ces hypothèses. 

2. Construire un paramètre dépendant des données à venir dont on connaisse la distribution 
si H 0 est juste. 

3. Choisir le seuil a ; a = 0,05 

4. Mettre en place la règle de décision sur la base d’un intervalle de pari au risque a. 

5. Faire l’expérience, les calculs et conclure sur le plan statistique. En particulier indiquer 
le degré de signification du test en cas de rejet de l’hypothèse nulle. 

6. Se livrer à une interprétation médicale des résultats du test (ce point sera revu au chapitre 
15). 

Vérifier les conditions de validité à l’étape 2 ou l’étape 5. 

B. Mettre en œuvre un test c’est accepter deux risques d’erreur : 

— le risque de première espèce, a, chiffrant la probabilité de rejeter H 0 alors qu’elle est 
vraie, 

— le risque de deuxième espèce, p, chiffrant la probabilité de ne pas rejeter H 0 alors qu’elle 
est fausse. 

La valeur 1-p s’appelle la puissance du test et mesure l’aptitude du test à détecter un écart 

entre la réalité et l’hypothèse nulle. Cette puissance augmente avec la taille des échantillons 

sur lesquels a été mis en œuvre le test. 
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Chapitre 12 


Quelques tests usuels 


12.1 Tests concernant des variables de 
Bernoulli 

12.1.1 Test d’égalité d’une proportion « vraie » à une valeur 
donnée (ou test de comparaison d’une proportion observée à 
une valeur donnée) 

12.1.1.1 Mise en place du test 


Exemple : les souris du chapitre précédent 

1. Les hypothèses en présence 

HO (hypothèse nulle) : la proportion « vraie » (de souris cancéreuses dans la population des 
souris traitées) est égale à tp 0 (proportion hypothétique ou supposée qu’on se donne pour le 
test). 

H1 (hypothèse alternative) : la proportion « vraie » est différente de (p 0 . 

Notations : 

H 0 : cp = 9o 

Hi : cp^(p 0 

2. Définition du paramètre 



où P n représente la variable aléatoire proportion. 
Sous H 0 , Z est à peu près distribuée selon N(0, 1) 
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[conditions de validité : n(p 0 > 5 et n(l - (p 0 ) - 5] 

3. Choix d’un seuil de signification a 

Construction de l’intervalle de pari de niveau 1 - a : IP 1 _ a 

Exemple : a = 0,05 IPo, 95 = [-1,96 ; 1,96] (lu dans la table de la distribution normale) 

4. Mise en place de la procédure de décision 

Lorsque les données seront disponibles on obtiendra une valeur du paramètre Z, soit : 


P “90 


z 



Si z £ IP, _ u on rejette H 0 et on dit : au risque a l’hypothèse d’égalité de la proportion 
« vraie » et de la valeur donnée est fausse ; ou, au risque a, la proportion « vraie » est diffé¬ 
rente de la valeur donnée. 

Si z e IPj _ a on ne rejette pas H 0 ou « on ne conclut pas ». 

5. Recueil des données. Conclusion 

Rappelons les conditions de validité :n(p 0 >5etn(l- (p 0 ) - 5 

12.1.1.2 Autre interprétation du paramètre z 

Regardons la forme du paramètre z. On conclut (c’est-à-dire on rejette H 0 ) si z g [-w a ; u a ] c’est- 
à-dire si |z| > u a soit si : 



c’est-à-dire si la proportion observée p est suffisamment différente de (p 0 . Voilà pourquoi on dit 
que l’on compare p et cp 0 - C’est pourquoi on dit aussi, lorsque H 0 est rejetée : 

La proportion observée est significativement différente de la valeur donnée, au 
risque a (0,05), ou encore : la différence entre p et (p 0 est significative. Ce qui 
indique une différence entre la valeur donnée et la proportion « vraie » (p. 

Lorsque H 0 n’est pas rejetée, on dit : la proportion observée n’est pas significati¬ 
vement différente de la valeur donnée. 

Très important : une même différence I p - (p 0 l peut être ou non significative selon la valeur de n. 
Si l’on vous demande : p = 0,25 et 0,2, sont-elles significativement différentes, ne répondez-pas ; 
demandez : quelle est la taille de l’échantillon sur lequel p a été calculé, à quel risque ? 
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12.1.1.3 Nombre de sujets nécessaires 

Si on considère qu’en réalité (p = qq, le nombre de sujets nécessaires pour obtenir une puissance 
1 - P (P < 0,5) est approximativement donné par 

_ [h 96^0(1 - g> 0 ) + u 2 p Vcp!( 1 - gg)] 

[«Po-^i f 

Conditions de validité :«q> 0 >5etn(l- q> 0 ) > 5 


12.1.2 Test d’égalité de deux proportions « vraies » (ou test de 
comparaison de deux proportions observées) 


12.1.2.1 Mise en place du test 

Reprenons l’exemple des souris mais en supposant maintenant que l’on ne connaît plus la fré¬ 
quence « vraie » de cancer chez les souris non traitées (le 0,2 d’alors). On se pose toujours la même 
question relative à l’activité du traitement. On est amené à reformuler légèrement le problème et 
identifier l’absence d’activité du traitement à l’égalité des proportions « vraies » de souris cancé¬ 
reuses dans deux populations, l’une traitée l’autre non traitée, et l’activité à une différence entre 
ces deux pourcentages. On notera A et B les deux populations, q A et cp fi les fréquences « vraies » 
de souris cancéreuses dans ces deux populations, n A et n B les tailles des échantillons sur lesquels 
on calculera p A et p B , les fréquences observées correspondantes. Mettons en place le test. 

1. Les hypothèses en présence 

H 0 hypothèse nulle : les fréquences « vraies » sont égales tp 4 = (p w 
H y hypothèse alternative : les fréquences « vraies » sont différentes qq^ ^ ty B 

2. Construction d’un paramètre dont on connaisse la loi sous l’hypothèse nulle (i.e. si H 0 est 
vraie) 

C’est une étape un peu délicate (le lecteur peu curieux peut passer rapidement sur ces déve¬ 
loppements). Essayons de nous ramener à un cas connu : comparaison d’un pourcentage ob¬ 
servé à une valeur donnée, problème associé aux hypothèses suivantes : 

H 0 : cp = (p 0 
H i : cp ^ cpo 

On y parvient en reformulant les hypothèses 
H o : 9 a - 9s = 0 

H i : 9 a ‘ 9s * 0 

Il s’agit donc de comparer à 0 la différence q A - ty B . 

Auparavant on formait le paramètre r " _^ () _ 

/ 9q( 1 ~ 9p) 

A/ n 
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qui peut s’interpréter comme 


v.a. proportion - valeur théorique 


écart-type de la v.a. proportion 

., . différence des v.a. proportions - valeur théorique 

Alors on va former — --- r ---r—-— 

ecart-type des différences des v.a. proportions 


soit 


^nA P n B 


écart-type des différences des v.a. proportions 

La difficulté est de former l’expression de l’écart type des différences des % expérimentaux. 
Remarquons d’abord que les variables aléatoires P nA et P nB sont indépendantes ; cette indé¬ 
pendance résulte du fait que ce n’est pas parce que l’on a trouvé une souris cancéreuse dans 
la population des souris traitées que l’on a plus ou moins de chances de trouver une souris can¬ 
céreuse ou non dans la population non traitée. 

Alors : var(P nA - P nB ) = var(P nA ) + var(-P nB ) = var(P nA ) + var(P nB ) (voir chapitre 6) 

Par ailleurs, sous l’hypothèse nulle, les moyennes « vraies » q A de P nA et (p 5 de P nB sont 
identiques, et leur valeur commune, inconnue, est notée n. D’où : 

var(P nA ) = ^ ^ et var(P nB ) = n(1 ~ n) 

n A n B 

si n A et n B sont les tailles des échantillons sur lesquels P nA et P nB sont calculées. 


Donc: var(P nA -P nB ) 


n(i-n) | n(i-n) 


A ,l B 

Maintenant, n reste inconnu ; il s’agit de la valeur « vraie » commune des pourcentages. Le 
mieux pour l’estimer est de mélanger les deux populations - elles contiennent sous H 0 le 
même pourcentage de souris cancéreuses - et dire : 


fl proche de fl 


nombre de souris cancéreuses dans les deux échantillons 


nombre total de souris 


soit : fl = 


II aPa + n B P B 
n A + n B 


Finalement on adopte le paramètre suivant : 


nA 


nB 


n(i-n) | n(i-n) 


avec fl 


n aP A + n BPB 
n A + n B 


Sous l’hypothèse nulle Z est à peu près distribuée selon N(0, 1). 
Conditions de validité : 
n A n > 5, n A ( 1 - FI) > 5 

n B Il > 5, nJ 1 - fl) > 5 
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3. Choix d’un seuil de signification a (a = 0,05). 

Construction de l’intervalle de pari IP j _ a lu dans une table, 
ex. : IP 0;95 = [-1,96 ; 1,96] 

4. Mise en place de la procédure de décision 

Si z, dont on connaîtra la valeur une fois l’expérience réalisée 
e IPo ,95 on ne conclut pas 

g IP() 95 on rejette H 0 : une proportion est alors plus grande que l’autre. 

p A ~Pb 

5. Réalisation de l’expérience, calcul de z = - , conclusion. 

I yy yy yy yy 

n(i-n) | n(i-n) 

12.1.2.2 Nombre de sujets nécessaires ^ 


Pour obtenir une puissance 1 - (3 ((3 < 0,5) sur la base de 2 échantillons de même taille n, la valeur 
minimale de n est donnée par la formule approchée suivante 


229 ( 1 - 9 ) 


Va + Vb 


n = [1,96 + « 2 r] — j —-^ avec (p = 

[9a- 9i,] 

Conditions de validité : mp A > 5, n(l - (p A ) > 5, n(p B > 5 et n{\ - (p B ) > 5 


12.2 Tests concernant des variables 
quantitatives 


12.2.1 Tests impliquant une valeur donnée 

Ces tests concernent les variables quantitatives continues et permettent de traiter les types de ques¬ 
tions suivantes : 

1. la moyenne « vraie » de la taille des individus dans une sous-population est-t-elle égale à la 
moyenne « vraie » de la taille des individus dans la population générale, cette taille moyenne 
étant connue par ailleurs. 

2. la distribution de la taille des individus dans cette sous population est-elle dissymétrique par 
rapport à cette moyenne « vraie », c’est-à-dire témoigne-t-elle d’une inégalité de fréquences 
entre les « petites » tailles et les « grandes tailles », ce qui est le cas par exemple si la fré¬ 
quence des « 20-25 cms de moins que la moyenne » est différente de celle des « 20-25 cms 
de plus que la moyenne » ? 

Ces deux tests sont apparentés dans la mesure où le premier met à l’épreuve E(X) = p 0 , l’autre le 
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fait que X - p 0 et Po ~ X ont la même densité de probabilité. Cette dernière condition, qui entraîne 
alors E(X ) - p 0 = p 0 - E(X) et donc E(X) = p 0 , étant plus contraignante que la première. 


12.2.1.1 Test d’égalité d’une moyenne « vraie » à une valeur donnée (ou test de 
comparaison d’une moyenne observée à une valeur donnée) 

Ce cas concerne les variables quantitatives continues et n’est valide que lorsque n > 30. 

1. Les hypothèses en présence : 

H 0 : la moyenne « vraie » est égale à avec la valeur donnée p () : p = p 0 
Hi : P * Po 

2. Construction du paramètre 



Z est à peu près distribué selon N(0, 1). Cela résulte du théorème central limite, à ceci près 
que s “ est utilisé à la place de g . On admettra que Z est tout de même distribué selon une 
distribution normale. 


3. Choix du seuil ; a = 0,05 


Construction de l’intervalle de pari centré EPj _ a 

IP 1 - a = [““a ^ U J ; m 0,05= !’ 96 

4. Définition de la règle de décision 


5. 


La règle de décision est tout à fait similaire au cas des proportions. 

Si z £ IP j _ , rejet de H 0 . On dit alors : au risque a la moyenne « vraie » diffère de la valeur 
donnée ou, pour les mêmes raisons que pour les proportions : la moyenne observée est signi¬ 
ficativement différente, au risque a, de la valeur donnée ; ou encore : la moyenne observée et 
la valeur donnée sont significativement différentes, au risque a. 

Si z e IP j a , on ne conclut pas. La moyenne observée n’est pas significativement différente 
de la valeur donnée. ,, 

m — 

Recueil des données. Calcul de z = ——- . Conclusion. 


Nombre de sujets nécessaires 

Pour rejeter H 0 avec une puissance 1 - P (P < 0,5), lorsque p = pj et que X a pour variance g“, il 
faut constituer un échantillon dont la taille minimale est donnée par la formule approchée suivante 

^ 2 

n - [1, 96 + w 9B ] 


G 


[Po-PiT 
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Condition de validité : n > 30 

12.2.1.2 Test de symétrie d’une variable (Z) par rapport à une valeur donnée 
(p 0 ) : test de Wilcoxon 

1. Les hypothèses en présence : 

H 0 : les variables X - p 0 et p 0 - X ont même densité de probabilité 
Hj : les variables X - p 0 et p 0 - Z n’ont pas la même densité de probabilité 

2. Construction du paramètre 

Le paramètre est construit à partir des valeurs ordonnées par ordre croissant des valeurs abso¬ 
lues des X( - p 0 °ù les x t sont les valeurs de X observées dans l’échantillon ; à chaque valeur 
on associe son rang de classement et l’on garde la mémoire de son signe. On attribue aux 
éventuels ex-æquo un rang commun égal à la moyenne des rangs qu’ils occupent. 

Exemple 

Si les valeurs observées (qui ne seront disponibles qu’après réalisation de l’expé¬ 
rience) sont : 

-2,3 ; 4 ; 1 ; 5,6 ; -1,2 

Le classement sera : 1 (+) ; 1,2 (-) ; 2,3 (-) ; 4 (+) ; 5,6 (+) 

On s’intéresse alors à la somme des rangs des places occupées par les valeurs posi¬ 
tives, appelée T + . Ici la valeur de T + serait 1+4+5 = 10. 

Le paramètre du test est : 

7 = T + -n(n + l)/4 
Jn(n + 1)(2« + l)/24 
La variable Z a une distribution connue : 

• Lorsque n > 15 cette distribution est à peu près N(0, 1). 

• Pour n < 15, il s’agit d’une distribution faisant l’objet d’une table spécifique, la table du 
test de Wilcoxon. 

3. Choix du seuil ; a = 0,05 

Construction de l’intervalle de pari centré IP 1 _ a 
IPj _ a = [-W a ; W a ] ; lorsque n > 15, W a = u a 

4. Définition de la règle de décision 

Si z g IPj _ a , rejet de H 0 . On dit alors : au risque a la densité de probabilité de X n’est pas 
symétrique par rapport à p 0 ; selon le signe de z, on conclura que X est « plutôt plus grand que 
p 0 », ou que X est « plutôt plus petit que p 0 ». 

Si z e IP j _ a , on ne conclut pas ; on ne rejette pas H 0 . 


2013 - 2014 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE fDEOECinE 


% 


129/179 






Quelques tests usuels 


5. Recueil des données, calcul de z, conclusion. 
Remarque : si n < 6 ce test ne permet jamais de rejeter H 0 


12.2.2 Tests de comparaison de variables quantitatives 

Ces tests concernent les variables quantitatives continues et permettent de traiter les types de ques¬ 
tions suivantes : 

1. la moyenne « vraie » de la taille des individus dans une sous-population A est-t-elle égale à la 
moyenne « vraie » de la taille des individus dans une autre sous-population B, ces moyennes 
« vraies » n’étant pas connues. 

2. la distribution de la variable aléatoire taille des individus dans la population A coïncide-t-elle 
avec la distribution de la variable aléatoire taille des individus dans la population B. 

Ces deux tests sont apparentés, l’hypothèse d’égalité des distributions étant plus contraignante que 
l’hypothèse d’égalité des moyennes « vraies » seules. Dans les deux cas on va réaliser une expé¬ 
rience mettant enjeu deux échantillons issus des deux populations, à l’issue de laquelle on dispo¬ 
sera de deux séries de valeurs de taille (les nombres de valeurs observées sont notés respectivement 
n A et n B ). 


12.2.2.1 Test d’égalité de deux moyennes « vraies » (ou test de comparaison de 
deux moyennes observées) 

Ce test n’est valide que lorsque nA et nB sont > 30, cas dit des grands échantillons. 

Il s’agit d’un problème très proche du problème traité en 12.2.1.1 

1. Les hypothèses en présence 

H 0 hypothèse nulle : les moyennes « vraies » dans les deux populations sont égales \i A = \i B 
H | hypothèse alternative : \i A ^ p s 

2. Construction du paramètre : cette construction suit les mêmes lignes que précédemment et on 
obtient 



Z est à peu près distribuée selon N(0, 1). 

3. Choix d’un seuil de signification (0,05) 

Construction de l’intervalle de pari IPj a (IP 0 95 ) 
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4. Règle de décision 


5. Mise en œuvre de l’expérience. 

Calculs : 

«A «A 

1 *—\ 2 1 V . / 

TJ X - m A ) 


m A = 


X et 5 â = 


i = 1 

«B 


( = 1 

«B 


m 


1 


1 


B 


X et S B = ^~TT\ X “ m B> 


1=1 i=l 

les x iA et x jB étant les valeurs de tailles observées dans les échantillons des populations A et 
B respectivement. 


m A - m B 


Is a + s _b 
\n A n B 


Conclusion. 


Nombre de sujets nécessaires 

Pour détecter une différence de moyennes avec une puissance 1 - P (P < 0,5) il faut constituer deux 
échantillons, chacun de taille au moins égale à n , valeur donnée par la formule approchée suivante 
où g a 2 et o B 2 sont les variances dans les populations 

n = [1, 96 + u 2 n\ - 5 

[Pa-Ps]" 

Condition de validité : n > 30 


12.2.2.2 Test d’égalité de deux distributions (ou test de comparaison de deux 
distributions observées) : test de Mann-Whitney-Wilcoxon 

1. Les hypothèses en présence 

H 0 les densités de probabilité coïncident dans les deux populations :f A =f B 
H | les densités de probabilité ne coïncident pas : f A ^f B 

2. Construction du paramètre : cette construction suit les mêmes lignes que celles du test de Wil- 
coxon décrit section 12 . 2 . 1 . 2 . 

Par convention, on considère que n A <n B . 

On ordonne par valeurs croissantes l’ensemble des données observées (dont on disposera 
après réalisation de l’expérience). On attribue aux éventuels ex-æquo un rang commun égal à 
la moyenne des rangs qu’ils occupent. Puis on calcule la somme des rangs de classement oc¬ 
cupés par les données issues de l’échantillon de la population A, soit T A . 
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n A (n A + n R + 1 ) 

On calcule également ô = T A -—- 

Puis T a de la façon suivante : 

• si ô > 0 => T A = T A - 0,5 

• si ô < 0 => T \4 = T a + 0,5 


Exemple 

Si les valeurs observées sont : 

— Echantillon de population A : 1,7 ; 6,1 ; 3,2 ; 1,5 
— Echantillon de population B : 4,3 ; 0,5 ; 1,1 ; 2,7 ; 5,4 

Le classement conduit à 0,5 ( B) ; 1,1 (B) ; 1,5 (A) ; 1,7 (A) ; 2,7 (B) ; 3,2 (A) ; 
4,3 ( B ) ; 5,4 (B) ; 6,1 (A) et à T A = 3+4+Ô+9 = 22. 

Enfin 6 = 22-4x10/2 = 2. Donc T A = 21,5. 


Le paramètre du test est : 


• Z = 


T A~ n A( n A + n B+ O/ 2 , . . 1ft 

lorsque n A et n B < 10 

J n A n B( n A + n B+ !)/!2 


T ' A ~n A (n A + n B + l)/2 

• Z = —lorsque n A ou n B > 10 

A l n A n B( n A + n B + !)/!2 

Z a une distribution connue : 

• Lorsque n A ou n B >10 cette distribution est à peu près N(0,1). 

• Lorsque n A et n B < 10, il s’agit d’une distribution faisant l’objet d’une table spécifique, 
la table du test de Mann-Whitney-Wilcoxon. 

3. Choix du seuil ; a = 0,05 


Construction de l’intervalle de pari IP, _ a 
Cet intervalle est du type IPj_ a = [~M a ; M a ] 

Exemple : si n A = 3 et n B = 5, on a M 0 05 = 2,117 

4. Règle de décision 

Si z £ IP 1 _ a , rejet de H 0 . On dit alors : au risque a la densité de probabilité de la variable 
étudiée n’est pas la même dans les populations A et B ; selon le signe de z, on conclura que 
la variable est « plutôt plus grande dans A que dans B », ou que la variable est « plutôt plus 
petite dans A que dans B ». 

Si z e IPj a ,onne conclut pas ; on ne rejette pas H 0 . 

5. Mise en œuvre de l’expérience ; calcul de z ; conclusion. 
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Remarque : si n A < 3 ou n B < 4, ce test ne permet jamais de rejeter H 0 


12.2.3 Cas des séries appariées 


Jusqu’à présent on a supposé que les tirages (la constitution) des échantillons des populations A 
et B étaient indépendants. Il arrive que cette condition ne soit pas vérifiée, que les individus des 
deux échantillons soient liés. Ceci se produit dans les exemples suivants : 

• pour comparer le niveau de sévérité de deux examinateurs, on fait corriger 100 copies par cha¬ 
cun d’eux, c’est-à-dire chacun corrigeant chacune de ces copies, et il s’agit de comparer les 
notes moyennes. 

• pour comparer deux méthodes de dosage de la glycémie on dose 100 prélèvements de sang 
par chacune de ces deux méthodes et l’on souhaite comparer les valeurs moyennes « vraies ». 

La procédure indiquée plus haut ne convient plus. A un moment de la mise en place des tests on 
avait à calculer la variance de la différence des moyennes observées. On avait dit qu’elle coïncide 
avec la somme des variances de chacune des moyennes. Ici, c’est faux ; on peut s’en convaincre 
facilement. Supposez qu’un correcteur accorde systématiquement un point de plus que son col¬ 
lègue à toutes les copies. Alors, quoi qu’il arrive, la différence des moyennes observées sera 1, 
donc cette différence n’est pas soumise aux fluctuations d’échantillonnage ; sa variance est nulle, 
donc n’a rien à voir avec les variances de chacune des moyennes qui, elles - ces variances -reflètent 
les différences de qualité entre les copies. 

On montre que le bon abord du problème est de travailler sur les différences des paires de valeurs 
obtenues par unité statistique (différence des notes, différence des glycémies par individu). Cela 
revient au problème de la comparaison d’une moyenne (moyenne des différences) à zéro ou à la 
question de la symétrie d’une distribution (celle des différences) par rapport à zéro. On se ramène 
ainsi à des tests que l’on connaît (cf. section 12 . 2 . 1 ). 

On note d la variable aléatoire différence entre résultats pour un même sujet. 

12.2.3.1 Test de comparaison de deux moyennes observées sur séries appariées 

Ce test n’est valide que si n > 30 

Les étapes de mise en œuvre du test sont les suivantes : 

1. H 0 : la moyenne « vraie » de d est nulle, soit p = 0. 

H j : la moyenne « vraie » de d est non nulle, soit p ^ 0. 

2. Construction du paramètre 


Z = 



n 


? 2 1 

où est la variance observée des différences, soit .y = -- 

n - 1 



i = 1 
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n est le nombre de paires 

Mnd est la variable aléatoire moyenne arithmétique des différences 
et m d est la moyenne observée des différences. 

On montre que Z est à peu près distribuée selon N(0, 1). 

T ,p.s étanes sp siippp.Hpnt alors Hp farnn orrlinairp • 



Pour le nombre de sujets nécessaires, se reporter à la section 12.2.1.1 page 128 A J n 

Remarque 

Si les notes attribuées par chacun des correcteurs varient généralement dans le même sens - c’est- 
à-dire une copie mieux notée qu’une autre par le premier examinateur le sera également par le 
second - alors la valeur absolue de z calculée sur la base de l’appariement est supérieure à la valeur 
absolue que l’on aurait obtenue en « oubliant » l’appariement. Ainsi, toutes choses égales par ail¬ 
leurs, on conclura plus fréquemment au rejet de l’hypothèse nulle : le test ainsi mis en place est 
plus puissant. On a exploité plus d’information. On a gommé une source de fluctuations, celle liée 
à la disparité de la qualité des copies. Si cet effet de variation dans le même sens n’est pas réel (ex. : 
lorsque l’un note la copie x, l’autre la note 20 - x ) le problème dans son ensemble n’a plus beau¬ 
coup de sens. 

12.2.3.2 Test de symétrie de la distribution des différences 

Ce test est un cas particulier du test vu au paragraphe 12.2.1.2. car les hypothèses considérées dans 
ce cas sont les suivantes : 

1. Hypothèses en présence 

H 0 : La densité de probabilité de la variable aléatoire d est symétrique par rapport à zéro. 

Hj : La densité de probabilité de la variable d n’est pas symétrique par rapport à zéro ; il existe 
des domaines de valeurs de d plus probables que leur opposé (par exemple si le domaine 
[2,1 ; 2,4] est plus probable que le domaine [-2,4 ; -2,1]). 

2. Construction du paramètre 

Le paramètre se construit comme en 12.2.1.2 : on range dans l’ordre croissant de leurs valeurs 
et sans tenir compte de leur signe les n différences dj. 

La suite se déroule comme en 12.2.1.2. 
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Résumé du chapitre 


Comparaison d’une proportion observée à une valeur donnée 

P-<P o 


z = 


<Po(l-<Po) 


; v.a. ~ N(0, 1) ; validité /np 0 - 5 et «(1 - cp 0 ) - 5 


Comparaison de deux proportions observées 
P A-P B 


z 


: v.a. ~ N(0, 1) ; n = 


jn(i-n) n(i-n) 


11 aPa + u bPb 
n A + n B 


validité : n A H > 5, n A ( 1 - n) > 5, n B H > 5, n B ( 1 - n) > 5 
Comparaison d’une moyenne observée à une valeur donnée 

z = -——^ ; v.a. ~ N(0, 1) ; validité n > 30 


Test de symétrie d’une variable par rapport à une valeur donnée 

Ordonner les valeurs absolues des écarts à la valeur donnée et calculer T + , somme des rangs 
des écarts positifs. 

T + - n(n + l)/4 . „ r .. 

z = - 1 -=- ; v.a. ~ N(ü, 1) si n > 15 ; v.a. ~ Wilcoxon smon. 

Jn(n + 1 ) ( 2 « + l)/24 
Comparaison de deux moyennes observées 


m A - m R 

z = , ; v.a. ~ N(0, 1) ; validité n A et n B > 30 

12 2 

s A + s Jl 

aK n B 


6 . Test d’égalité de deux distributions (on suppose n A < n B ) 

Ordonner les valeurs. T A = somme des rangs des données A. 8 = T A - 
T A = T A - 0,5 si 8 > 0, T A - T A + 0,5 sinon 

T ' A -n A (n A + n B + l)/2 

z = —==^=^== ~ N(0, 1) lorsque n A ou n B > 10 

J n A n B( n A + n B+ l ) /l1 


T A ~ n A^ n A + n B + 

z = —===== ~ Mann-Whitney-Wilcoxon si n A et n B < 10 

J n A ,l B (n A +, 1 B + 1 )/ 1 2 

7. Comparaison de deux moyennes observées sur séries appariées 

On utilise le test 3 en comparant la moyenne de la variable différence d à 0 

8 . Test de symétrie des différences (séries appariées) 

On utilise le test 4 de symétrie de la variable d par rapport à 0. 
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Chapitre 13 

Tests concernant des variables 
qualitatives 

Introduction 

On a jusqu’à présent complètement négligé les variables qualitatives à plus de deux moda¬ 
lités. On a en effet toujours parlé de moyenne, et cette notion n’existe pas pour les variables 
qualitatives, sauf pour celles à deux modalités grâce à un artifice de codage. Il n’y a pas 
d’instrument permettant de résumer la distribution d’une variable qualitative ; il faut consi¬ 
dérer la distribution dans son ensemble, c’est-à-dire l’ensemble des probabilités pour que 
telle ou telle modalité se réalise. Pourtant des problèmes de choix d’hypothèses se posent 
également dans le cas de telles variables ou tels caractères (ex : la répartition [distribution] 
de la couleur des cheveux diffère-t-elle chez les habitants de tel département et de tel 
autre ?). Si la répartition du caractère est connue dans une des deux populations, on aura à 
comparer une répartition « observée » à une répartition donnée. Si les deux répartitions sont 
inconnues, on aura à comparer deux répartitions « observées ». Ces problèmes sont respec¬ 
tivement les homologues des tests de comparaison d’une moyenne à une valeur donnée, de 
comparaison de deux moyennes. Il existe des tests adaptés à chacun de ces cas. 

13.1 Comparaison d’une répartition observée 

a une répartition donnée ou test du % 
d’ajustement 


Supposons que l’on souhaite savoir si la répartition de la couleur des cheveux dans la population 
des habitants du département A diffère de la répartition de la couleur des cheveux dans la popula¬ 
tion française, cette dernière répartition étant supposée donnée. Supposons qu’il y ait k couleurs 
répertoriées. On est alors amené à considérer une variable qualitative à k modalités. Notons (p, la 
probabilité de survenue de l’événement « la z eme modalité est observée ». 

Exemple : 

cp | = probabilité qu’un individu tiré au hasard dans le département A ait les cheveux blonds 
tp 2 = probabilité qu’un individu tiré au hasard dans le département A ait les cheveux bruns 
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etc... 

Notons par ailleurs (p/„- la proportion « vraie » de la modalité i dans la population française. 

On s’apprête à réaliser une expérience sur n individus à l’issue de laquelle on disposera d’un en¬ 
semble de Oj (Oj = nombre d’individus présentant la modalité i du caractère étudié, parmi les in¬ 
dividus de l’échantillon). 


13.1.1 Les étapes de mise en œuvre 


1. Les hypothèses en présence 
Deux hypothèses sont en présence : 

i. la répartition « vraie » de la variable dans la population étudiée coïncide avec la réparti¬ 
tion donnée (hypothèse nulle H 0 ) 

ii. les répartitions diffèrent (hypothèse alternative Hj) 

Avec les notations précédemment introduites, cela s’écrit : 

H 0 : hypothèse nulle : cp ; - = q> hi pour tous les i de 1 à k. 

H ] : hypothèse alternative : cp,- ^ (p /n pour au moins une modalité, c’est-à-dire pour au moins 
un i. 

2. Construction du paramètre 

On a déjà mis en place ce test dans le cas d’une variable (0 - 1) c’est-à-dire d’une variable à 
deux modalités. Dans ce cas, les hypothèses en présence étaient bien du type ci-dessus c’est- 
à-dire 

H 0 :( P = ( P/ î ietl-cp = cp /î2 =l-tp M 

ce qui s’écrit avec les nouvelles notations : 

9i = 9/ i i et 92 = 1 - «P/, i 

Mais on n’avait retenu que la condition cp = q> /z j (en fait (p = cp 0 ) car dans ce cas les deux condi¬ 
tions ci-dessus sont redondantes. 

Le paramètre calculé retenu était : 


P~Vh i 



Calculons son carré 



(np - »(P/,|) 
« 9/0 


n (P ~ 9/,i) 2 n (P ~ 9/,i)^ 
9/o l-9/o 

0(1 -P)~n( 1 -9/q)) 2 _ 
«(1-9 hl) 



z 


+ 
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Or np = nombre d’individus observés présentant la valeur 1 c’est-à-dire la modalité 1 de la 
variable ; or sous H 0 la probabilité de cette modalité est (p /; l . On s’attend donc à observer n (p /; | 
individus présentant cette valeur. Ce nombre d’individus attendu s’appellera effectif attendu 
ou calculé de la première modalité et sera noté A j. 

De la même façon, n( 1 -p) = nombre d’individus observés présentant la valeur 0 c’est-à-dire 
la modalité 2 de la variable ; or sous H 0 la probabilité de cette modalité est (p /;2 = 1 - cp/, j. On 
s’attend donc à observer n(p /, 2 individus présentant cette valeur. Ce nombre d’individus atten¬ 
du s’appellera effectif attendu ou calculé de la seconde modalité et sera noté A 2 . 

„ . 2 (O,-A,) 2 (0 2 -A 2 ) 2 

Ai A 2 

où les Oj représentent les effectifs observés dans les différentes modalités, les A,- représentent 
les effectifs n (p/, H dits prévus ou calculés ou ATTENDUS dans les différentes modalités. 


GENERALISATION 


Lorsque les variables considérées ont plus de deux modalités, on généralise le calcul ci-dessus 
et on retient le paramètre suivant : 


e= Z 


‘ (O,-A :) 2 


; = 1 

où la somme s’étend à toutes les k modalités de la variable. 

On rappelle que les Oj sont les effectifs observés, et que les A,- valent n (p /; ,. 


On remarque que Q chiffre l’écart entre ce qui est prévu par l’hypothèse H 0 et ce qui est 
obtenu ; cet écart se fonde naturellement sur les différences Oj - n (p /n car n tp/„- est le nombre 
attendu d’individus présentant la modalité i. 

Exemple : si (p/ H - = 0,4, sur 100 individus on en attend 40 présentant la modalité i. C’est le 
nombre que l’on aurait si la distribution d’échantillonnage coïncidait avec la distribution hy¬ 
pothétique. 


Par ailleurs on a pu montrer (résultat dû à Pearson) que sous H 0 (et si tous les A,- > 5) ce pa¬ 
ramètre a une distribution qui ne dépend que du nombre de modalités, k. Cette distribution 
porte le nom de DISTRIBUTION DE x 2 

Si bien que l’on peut former - grâce encore à une table - un intervalle de pari de niveau donné 
relatif à cette variable. 


RETENONS : 

CONDITIONS DE VALIDITE : TOUS LES A ; DOIVENT ETRE AU MOINS EGAUX A 5 
3. Intervalle de pari 

a étant choisi (0,05), construction de l’intervalle de pari IPj a 

La variable % 2 a l’allure présentée figure 13. On remarque qu’il serait stupide de choisir l’in- 
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tervalle de pari centré dessiné sur cette figure car alors des valeurs numériques voisines de 
zéro pour la valeur Q c du paramètre Q seraient dans la région critique du test ; or des valeurs 
proches de zéro sont plutôt compatibles avec H 0 d’où le choix suivant (voir figure 14) : 

1^1 - a = ’ ^ddl.oJ 

C’est cette valeur, notée K ddl a qui est lisible directement dans une table. 

Remarque : notez que cet intervalle, bien que non symétrique autour de la moyenne, respecte 
la définition d’un intervalle de pari donnée section 9.4.1 page 94. 




Figure 14 : distribution de x 2 


Usage de la table 

Cette table comporte - comme celle du t de Student - une entrée entière appelée nombre de 
degrés de liberté (ddl). On montre que pour le test envisagé ici 


nombre de degrés de liberté = nombre de modalités - 1 
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Exemple : (5 ddl, si 6 modalités) = 11,07 

La suite de la mise en place de ce test est usuelle. 

4. Règle de décision 

Si Q c < ^T ddl a on ne conclut pas 

Si Q c > K ddl a H 0 est rejetée. Cela signifie que l’on conclut que la répartition du caractère étu¬ 
dié (par exemple la couleur des cheveux dans le département A) ne coïncide pas - ou ne 
s’ajuste pas - avec la répartition donnée (par exemple la répartition de la couleur des cheveux 
dans la population française). On admet, en formulant cette conclusion, un risque d’erreur 
égal à a. 

5. Recueil des données et conclusion 

Exemple numérique : le tableau ci-dessous présente une application numérique de l’exemple 
considéré. 



couleur des cheveux 

blonds 

bruns 

roux 

total 

effectifs observés 
( Oi ) 

25 

9 

3 

37 

(n) 

effectifs attendus 
(Af = iup hi ) 

14,8 

11,1 

11,1 

37 

répartition donnée 
(<P hi) 

0,4 

0,3 

0,3 

1 


Les conditions de validité sont vérifiées (A,- > 5). 


On obtient ici : 

_ (25-14,8) 2 (9-11,l ) 2 (3-11,l ) 2 _ 

14,8 11,1 11,1 

On sait que Q est distribué selon un % à (3-1) degrés de liberté ; on lit dans la table : 
^2;0,05 = 5 ,99. 


Ainsi, la valeur calculée n’appartient pas à l’intervalle de pari : on conclut que la répartition 
du caractère ne coïncide pas avec la répartition donnée. 
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13.1.2 Cas particulier : variable à deux modalités 

On a vu que le paramètre du test Q généralise l’expression du carré du paramètre Z utilisé pour la 
comparaison d’une proportion observée à une valeur donnée. Dans le cas d’une variable à deux 
modalités (k = 2), ces deux paramètres sont égaux : Q = Z . 

En outre, et sinon il y aurait incohérence, on peut vérifier l’égalité suivante : 

*1» = “a 

Exemple : pour a = 0,05 ^i : o,o 5 = 3,84 = (1,96) 2 

Ainsi, pour comparer une répartition observée à une répartition donnée, dans le cas d’une variable 
à deux modalités, on dispose de 2 tests équivalents, l’un fondé sur la distribution normale, l’autre 
fondé sur la distribution du % à 1 d.d.l. (qui est en fait la distribution du carré de N(0, 1)). 

On peut utiliser l’un ou l’autre de ces tests indifféremment. 

Exemple : Reprenons l’exemple du chapitre 11 

Une race de souris présente un taux de cancers spontanés de 0,2. Sur 100 souris traitées on observe 
34 cancers soit p = 0,34. La différence est elle significative ? 

• test de comparaison : 

„ _ 0,34-0,2 _ Q c 
,- 3,5 

0,2 x 0,8 

V 100 

• test du x 2 ■ 


Qc 



cancer 

absence de 

cancer 


répartition théorique 

0,2 

0,8 


effectifs attendus 

20 

80 


effectifs observés 

34 

66 

100 

(effectif total) 


(34 -20 ) 2 (66-80) 2 

20 + 80 


12,25 = (3,5 ) 2 


Remarque : On parle souvent de ce test sous la terminologie « test du % d’ajustement » pour ex¬ 
primer qu’il met à l’épreuve l’ajustement - la compatibilité - entre une répartition observée et une 
répartition donnée. 


142/179 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE mEDECine 


g. 


2013 -2014 

















Tests concernant des variables qualitatives 


13.2 Comparaison de plusieurs répartitions 
observées ou test du % d’homogénéité 


On reprend l’exemple précédent concernant la répartition de la couleur des cheveux mais sans plus 
supposer que l’une de ces répartitions est connue ; il s’agit par exemple des répartitions de ce ca¬ 
ractère dans deux départements. On souhaite donc comparer deux répartitions observées. Pour ce¬ 
la, on s’apprête à réaliser une expérience mettant en jeu deux échantillons, un échantillon de n ] 
individus issu de la population des habitants du département 1 , et un échantillon de /z 2 individus 
issu de la population des habitants du département 2. A l’issue de cette expérience on disposera 
d’un ensemble d’effectifs observés, notés de la façon suivante : 

• O n est le nombre d’individus du premier échantillon présentant la modalité i de la variable. 

• C> 2 i est le nombre d’individus du second échantillon présentant la modalité i de la variable. 

Le test se met en place de la façon suivante : 

1. Les hypothèses en présence 

H 0 : les répartitions « vraies » de la variable sont identiques dans les deux populations 
H j : les répartitions « vraies » sont différentes 

Ces hypothèses se schématisent par : 

H 0 : cpi i = (p 2 j pour toutes les modalités i. 

H ] : <p |, ^ tp 2 i pour au moins une modalité i. 

2. Construction du paramètre 

C’est encore ici le point délicat. La solution ressemble dans son approche à celle du problème 
de la comparaison de deux pourcentages. Clé du principe : on mélange les deux populations 
pour calculer une pseudo-répartition théorique. On se retrouve alors pratiquement dans la si¬ 
tuation du paragraphe précédent. Cela se verra mieux sur un exemple. On va faire, pour des 
raisons de simplicité de calcul, une petite entorse à notre façon de procéder, et directement 
évaluer le paramètre dont on connaît la loi. 

i. On construit ce que l’on appelle un tableau de contingence qui contient les résultats ex¬ 
périmentaux. 

On a procédé à une expérience portant sur 37 individus issus de la population 1 et 40 in¬ 
dividus issus de la population 2. Les résultats sont les suivants : 
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Tableau 4 : effectifs observés (O et 0 2 ,) 



blonds 

bruns 

roux 

nombre total 

échantillon 1 

25 

9 

3 

u> 

II 

s 

échantillon 2 

13 

17 

10 

40 = «2 


ii. On construit une pseudo-répartition de référence, en mélangeant les résultats expérimen¬ 
taux, c’est-à-dire en oubliant leur origine (population 1 ou population 2). 

On obtient les résultats suivants, en termes d’effectifs (première ligne), puis en termes 
de fréquences (deuxième ligne). 



Tableau 5 

: répartition de 

« référence » 



blonds 

bruns 

roux 

nombre total 

mélange 

38 

26 

13 

77 

fréquences 

38/77 = 0,49 

26/77 = 0,34 

13/77 = 0,17 



Ces trois fréquences, 0,49, 0,34, 0,17, vont jouer maintenant le rôle des probabilités hy¬ 
pothétiques cp/jj de la section 13.1. Pour la commodité de l’écriture, on les note respecti¬ 
vement/?,, p 2 > P 3- 


ni. On forme le tableau des effectifs attendus. 

Si l’hypothèse nulle est juste, c’est-à-dire si les répartitions de la couleur des cheveux 
coïncident dans les deux départements, on s’attend à trouver des effectifs calculés 
comme suit : 

effectif attendu pour la modalité i (modalité 1 = blond, modalité 2 = brun, modalité 3 = 
roux) dans l’échantillon j (j = 1 ou 2) : nj multiplié par p t 

Par exemple le nombre attendu d’individus bruns dans l’échantillon de la première po¬ 
pulation est : 37 x 0,34 = 12,6. 

En effectuant systématiquement ces calculs, on obtient le tableau des EFFECTIFS AT¬ 
TENDUS. 


Tableau 6 : effectifs attendus (A h et A 2; ) 



blonds bruns roux 

échantillon 1 

échantillon 2 

18,1 (niPi) 12,6 (n 1 /? 2 ) 6,3(n 1 p 3 ) 

19,6 (« 2 Pi) 13,6 (M 2 P 2 ) 6,8 (« 2 /^ 3 ) 


iv. On calcule finalement le paramètre du test 
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On montre que le paramètre adapté à ce test est : 

‘ (0„-A „) 2 l (0 2 ,-A 2 f 

L Au L A 2 , 


i =1 ; = 1 

où k demeure le nombre de modalités de la variable. 


On a souvent recours à une expression plus compacte de l’expression ci-dessus et on 
écrit : 


nombre de cases du tableau . _ , .2 

q - - { °r A ^ 


I 

j = 1 


A j 


MAIS ICI LA SOMMATION S’ETEND A TOUTES LES CASES DES TABLEAUX, 
numérotées grâce à l’indice j. 

Exemple : dans l’exemple traité il s’agira donc de calculer une somme de 6 termes. 


On montre que, si H 0 est vraie, Q est distribué comme un à (3 - 1) x (2 - 1) degrés de 
liberté [3 est le nombre de modalités, et 2 le nombre de répartitions] 

La VALIDITE de ce résultat suppose que tous les effectifs attendus Aj soient au moins 
égaux à 5. 

GENERALISATION 


Les calculs ci-dessus se généralisent à un nombre quelconque de modalités k, à un nombre 
quelconque de populations m. 

Le paramètre Q à calculer a alors la forme ci-dessus, où la somme comprend kxm termes. 
La distribution de Q, sous H 0 est alors un % 2 à (k - 1 )x(m - 1) degrés de liberté. 

Les conditions de validité du test sont : A : > 5, 1 < / < km 

3. La suite des étapes de mise en œuvre est classique. 

La valeur observée de Q, notée Q c , sera comparée à la valeur X ddl . 0 0 5 : 

• si Q c < X d di-o 05 on ne conclut pas. Il n’est pas démontré que les deux répartitions 
« vraies » diffèrent. 

• si Q c > V ddK) 05 on conclut que les deux répartitions observées diffèrent significative¬ 
ment. 

Suite de l’exemple : on obtient : 

_ (25-18,l) 2 (9-12, 6) 2 (3-6,3 ) 2 (13-19,6) 2 (17-13,6) 2 (10-6, 8) 2 

^ c 18,1 12,6 6,3 19,6 13,6 6,8 

soit : Q (: = 9,96 

Or : K 2 - op 5 = 5,99 => rejet de H 0 . Les répartitions observées de la couleur des cheveux dif¬ 
fèrent significativement dans les deux populations. 
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Remarque 1 : Ce test s’appelle aussi test du d'homogénéité de plusieurs répartitions. 

Remarque 2 : Cas particulier de deux variables à deux modalités : dans le cas où l’on 
considère deux variables à deux modalités, c’est-à-dire dans le cas où le tableau de contin¬ 
gence est à deux lignes et deux colonnes, on observe que le problème se réduit à un problème 
de comparaison de deux proportions observées. On montre que, dans ce cas, la valeur de Q 
coïncide avec le carré de la valeur de Z, Z étant le paramètre formé pour comparer directement 
ces proportions (voir chapitre 12). 


13.3 Test d’indépendance entre deux 
variables qualitatives 


Reprenons l’exemple précédent et supposons que les populations 1 et 2, plutôt que de correspondre 
à des individus habitant le département 1 et le département 2, soient en fait : 

— population 1 : population des individus ayant les yeux bleus 

— population 2 : population des individus ayant les yeux verts 

La question que l’on aurait résolue dans le paragraphe précédent aurait été : 
la répartition de la couleur des cheveux diffère-t-elle dans les populations d’individus aux yeux 
bleus ou verts. Ou encore, la répartition de la couleur des cheveux diffère-t-elle selon la couleur 
des yeux ? Autrement dit : la variable couleur des cheveux dépend-elle statistiquement de la va¬ 
riable couleur des yeux ? 

Maintenant supposons que l’on veuille répondre à cette question. Plutôt que de prendre un échan¬ 
tillon de la population des individus aux yeux bleus et un autre échantillon issu de la population 
des individus aux yeux verts, autant prendre un échantillon de la population générale (c’est-à-dire 
quelle que soit la couleur de ses yeux) et observer conjointement la couleur des cheveux et la cou¬ 
leur des yeux. Vues comme cela, les deux variables jouent bien des rôles symétriques et le pro¬ 
blème est donc de mettre à l’épreuve leur indépendance. 

1. Les hypothèses en présence. 

On formule naturellement deux hypothèses : 

Hypothèse H 0 

les deux variables étudiées (couleur des cheveux, couleur des yeux) sont indépen¬ 
dantes. Sous cette hypothèse, le fait d’avoir observé chez un individu la couleur de ses 
cheveux (respectivement la couleur de ses yeux) n’apporte aucune information sur la 
couleur de ses yeux (respectivement la couleur de ses cheveux). 

On pourra se reporter au chapitre 6 dans lequel ont été commentées ces notions d’in¬ 
dépendance. 

On notera que, comme dans tous les cas rencontrés jusqu’ici, cette hypothèse est une 
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hypothèse fine qui engage un ensemble d’égalités. 

En effet, on sait que l’indépendance s’exprime par : 

Pr (la modalité de la couleur des cheveux est 1 et la modalité de la couleur des yeux 
est c) = Pr(la modalité de la couleur des cheveux est /) x Pr(la modalité de la couleur 
des yeux est c), et ceci pour tous les choix possibles de / et c. 

Remarque : on pourra vérifier que parmi les (nombre de modalités de la couleur des 
cheveux x nombre de modalités de la couleur des yeux) égalités qui en résultent, cer¬ 
taines sont redondantes, et que (nombre de modalités de la couleur des cheveux - 1 ) x 
(nombre de modalités de la couleur des yeux - 1 ) égalités suffisent à exprimer les 
mêmes conditions. 

Hypothèse H ( 

les deux variables étudiées ne sont pas indépendantes. 

Cette hypothèse exprime le contraire de H 0 . 


TRES IMPORTANT (des erreurs sont souvent commises) 
HYPOTHESE NULLE : LES DEUX VARIABLES SONT INDEPENDANTES 
HYPOTHESE ALTERNATIVE : LES DEUX VARIABLES SONT LIEES 


2. Le paramètre du test 


Le paramètre est encore Q, et s’exprime exactement comme précédemment, c’est-à-dire : 

nombre de cases du tableau . _ . ,2 

e= X 

j = 1 J 

Ici le nombre de cases du tableau de contingence est égal au produit du nombre de modalités 
de la première variable et du nombre de modalités de la seconde variable. 

Les effectifs attendus s’obtiennent exactement comme dans le cas du paragraphe précédent, 
ainsi qu’on peut le voir sur l’exemple numérique ci-dessous. 


Un exemple numérique 

Le tableau ci-dessous montre un exemple de tableau de contingence (D. Schwartz, Méthodes 
statistiques à l’usage des médecins et des biologistes , Flammarion (collection statistique en 
biologie et médecine), 3 e édition, p79) ; cet exemple est similaire aux précédents, si ce n’est 
que l’on a considéré un plus grand nombre de modalités pour la variable couleur des cheveux, 
et que la nouvelle variable introduite (couleur des yeux) comporte trois modalités. Ces moda¬ 
lités remplacent les échantillons considérés dans la section 13.2 page 143. Ainsi, la modalité 
« bleu » par exemple peut être lue : « échantillon issu de la population des individus aux yeux 
bleus ». La taille de cet échantillon n’est cependant plus maîtrisée. 
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Couleur 

des yeux 

Couleur des cheveux 

fréquence 


blonds 

bruns 

roux 

noirs 

total 


bleus 

25 

9 

7 

3 

44 

44/124 

gris 

13 

17 

7 

10 

47 

47/124 

marrons 

7 

13 

5 

8 

33 

33/124 

total 

45 

39 

19 

21 

124 


fréquence 

45/124 

39/124 

19/124 

21/124 

124/124 



Les effectifs attendus s’obtiennent comme précédemment. Ainsi, l’effectif attendu relatif au 
couple « blonds, marrons » sera : 45/124x33/124x124 = 11,9. 

REMARQUES 

i. Pour alléger les calculs, on peut remarquer que l’effectif attendu relatif à la cellule loca¬ 
lisée ligne /, colonne c est égal au rapport 

• du produit du total de la ligne 1 et du total de la colonne c , 

• et du total général. 

ii. La somme des effectifs attendus, soit en ligne, soit en colonne, coïncide avec les mêmes 
sommes sur les effectifs observés. Cette remarque permet une vérification partielle des 
calculs. 

iii. Dans la présentation des calculs, on a procédé au « mélange » des résultats sans plus tenir 
compte de la couleur des yeux (ce qui conduit à sommer les lignes du tableau). On peut 
de façon équivalente mélanger les résultats expérimentaux sans plus tenir compte de la 
couleur des cheveux, ce qui conduira à sommer les colonnes du tableau de contingence 
pour obtenir la répartition de référence. On pourra vérifier que les résultats du calcul sont 
strictement les mêmes, ce que l’on attend compte tenu du rôle symétrique joué par les 
deux variables étudiées. 


SOUS L’HYPOTHESE NULLE D’INDEPENDANCE entre les deux variables, Q EST 

DISTRIBUE SELON un y} à : 

(nombre de modalités de la première variable - 1) x (nombre de modalités de la seconde 

variable - 1) 

DEGRES DE LIBERTE. 
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Les CONDITIONS DE VALIDITE sont encore : Aj > 5. 

3. La suite des étapes est habituelle 

En particulier, la règle de décision s’établit comme suit : 

• si la valeur calculée de Q, notée Q c , est inférieure à Æf ddl a , on ne rejette pas l’hypothèse 
d’indépendance des deux variables. 

• si la valeur calculée Q c est supérieure à K idla , on rejette l’hypothèse d’indépendance 
des deux variables. On dira alors que les deux variables sont liées, au risque a. 

Exemple : 

Dans l’exemple ci-dessus, la valeur de Q c , résultant de la sommation de 12 termes, est 15,1. 
Le nombre de degrés de liberté est : (4 - l)x(3 -1) = 6, la valeur de K &0 05 associée étant 12,6 
(lue dans une table). On rejette donc ici l’hypothèse d’indépendance : couleur des cheveux et 
couleur des yeux sont liées, ou encore sont dépendantes. Voyons une illustration de cette dé¬ 
pendance. Sur la base des données observées on a : 

Pr(yeux bleus) = 44/124 = 0,35 

Pr(yeux bleus / cheveux blonds) = 25/45 = 0,56 

La connaissance de la couleur des cheveux (ici la modalité « blond ») modifie la répartition 
de la couleur des yeux (ici la fréquence de la modalité « bleu » qui évolue de 0,35 à 0,56). Le 
test indique que cette modification est significative. En réalité la valeur de Q c ci-dessus 
chiffre dans leur ensemble les différences entre Pr(A / B) et Pr(A), c’est-à-dire les écarts de 
Pr{A et B) par rapport au produit Pr(A)Pr(B), où A est un événement relatif à la couleur des 
yeux et B un événement relatif à la couleur des cheveux. 
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Résumé du chapitre 


Tests du x 2 - Effectifs observés Oj, effectifs attendus A -. 
Conditions de validité générales : Aj >5 
Paramètre général : 


nombre de cases du tableau . _ , ,2 

fi = E tSçéà 


7=1 


; 


Comparaison d’une répartition observée à une répartition donnée (ajustement) 

H 0 : La répartition « vraie » s’ajuste à la répartition donnée 
H| : La répartition « vraie » ne s’ajuste pas à la répartition donnée 
Nombre de cases = nombre de modalités 
Q ~ X“( nom bre de modalités -1) 

Comparaison de plusieurs répartitions observées (homogénéité) 

H 0 : Les répartitions coïncident 
Hi : Les répartitions diffèrent 

Nombre de cases = nombre de modalités x nombre de répartitions 
Q ~ X ((nombre de modalités -1) x (nombre de répartitions -1)) 

Test d’indépendance de deux variables qualitatives 
H 0 : Les deux variables sont indépendantes 
H 1 : Les deux variables sont liées 

Q ~ % 2 ((nb de modalités de l ere variable - 1 ) x (nb de modalités de 2 eme variable - 1 )) 


Dans les deux derniers cas, si l est le nombre de lignes, c le nombre de colonnes du tableau de 
contingence, le nombre de degrés de liberté des x 2 est (/ - l)(c - 1 ). 
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Chapitre 14 

Liaison entre deux variables 
continues : notion de 
corrélation 


14.1 Introduction 


Nous avons rappelé dans le chapitre précédent la notion fondamentale d’indépendance entre deux 
variables qualitatives et vu la façon dont cette indépendance pouvait être mise à l’épreuve lors 
d’une expérience. Dans le chapitre 12, les tests mis en œuvre faisaient intervenir une variable quan¬ 
titative continue et une variable qualitative encore jugées dans leurs interdépendances. Il se trouve 
qu’il existe une autre classe de problèmes mettant en jeu encore deux variables aléatoires, mais 
cette fois-ci, deux variables continues. Considérons, par exemple, deux variables aléatoires, l’in¬ 
suffisance rénale (avec deux valeurs ou modalités présence-absence) et l’insuffisance hépatique 
(avec les deux mêmes modalités). Supposons que l’on connaisse un indicateur de la fonction rénale 
(ou de certains de ses aspects), la clairance à la créatinine par exemple et un indicateur de la fonc¬ 
tion hépatique (ou de certains de ses aspects) la bilirubinémie et que le diagnostic d’insuffisance 
rénale soit porté lorsque la clairance est inférieure à un seuil, celui d’insuffisance hépatique lorsque 
la bilirubinémie est supérieure à un autre seuil. On sait résoudre (voir chapitre 13) la question de 
savoir si les variables insuffisance rénale et insuffisance hépatique sont indépendantes ou liées. 
Toutefois, compte tenu des précisions données sur l’origine des diagnostics d’insuffisance rénale 
et d’insuffisance hépatique, on est tenté de reformuler le problème posé en ces termes : y a-t-il un 
lien entre les variables aléatoires clairance à la créatinine et bilirubinémie ? Un niveau élevé de 
l’une est-il « annonciateur » d’un niveau élevé de l’autre ? Ou encore : la connaissance du niveau 
de l’une modifie-t-elle l’idée que l’on se fait du niveau de l’autre, non encore observée ? Cette der¬ 
nière formulation est très proche de la formulation utilisée pour discuter de l’indépendance entre 
événements : la connaissance du fait qu’un événement s’est réalisé (maintenant un niveau de clai¬ 
rance connu) modifie-t-elle la plausibilité d’un autre événement (maintenant la bilirubinémie) ? 

Les situations dans lesquelles on se pose naturellement la question de savoir si deux variables 
continues sont liées sont extrêmement fréquentes. Voilà quelques exemples : 
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— la consommation de cigarettes (quotidienne ou cumulée) et la capacité respiratoire sont-elles 
liées ? 

— la gastrinémie et la quantité de cellules ECL sont-elles liées ? 

— les valeurs de glycémie obtenues selon deux méthodes de dosage sur les mêmes échantillons 
sanguins sont-elles liées [ici, il faut l’espérer]. 


14.2 Abord du problème 


Considérons deux variables aléatoires continues X (créatininémie) et Y (bilirubinémie). Imagi¬ 
nons que nous ayons réalisé une expérience consistant en l’observation conjointe du niveau de ces 
deux variables sur un ensemble (échantillon) de n sujets. On dispose ainsi d’un ensemble de 
couples de valeurs Xj, y- r La représentation naturelle - sinon la meilleure - de ces résultats est don¬ 
née dans la figure ci-dessous ; chaque couple de valeurs obtenu chez chaque individu est représenté 
par un point de coordonnées (créatininémie-bilirubinémie). 

On lit sur un tel dessin, au moins grossièrement, le domaine des valeurs possibles de X, le domaine 
des valeurs possibles de Y. 

Intéressons nous à un nouvel individu ; ne mesurons chez lui que la valeur de la créatininémie, v () . 
Que peut-on dire alors, sur la base de cette connaissance et sur la base de l’expérience ci-dessus 
concernant le domaine des valeurs possibles de Y pour ce même individu ? On peut proposer la 
réponse géométrique ou visuelle indiquée sur la figure ci-dessous. 


A y (bilirubinémie) 


domaine des 
valeurs de Y 


x x « x X 

X X X X Y X 
X X Y 

X X x x x 
X x x x X 


X 

X 

X 


X 

X 

X 

X 


X X X 


domaine des 1 x (créatininémie) 
valeurs de X 


A y (bilirubinémie) 

i 


domaine des 
valeurs de Y 
sachant x {} 


x~k ir x x 
x x x x 

X x X xfx x 
JL — :js_ x JL 


x x 
x 

x x 

X X X 


-h) 


x (créatininémie) 
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Le nouveau domaine possible - sachant xq - est très voisin du domaine initial ; ceci se reproduit 
pour toute valeur de x 0 . Il est alors clair que dans cet exemple, la connaissance de X n’apporte pas 
d’information sur celle de Y. On a ici une situation visuelle d’un cas où les deux variables X et Y 
sont indépendantes. On pourrait renverser le rôle de X et Y, la conclusion serait la même. 

Considérons maintenant le cas où les résultats expérimentaux produisent la représentation de la fi¬ 
gure ci-dessous. 

Dans ce cas, au contraire, on voit clairement que la connaissance de Xq (respectivement y |) modi¬ 
fie le domaine des valeurs possibles, donc attendues de Y (respectivement X) ; les deux variables 
X et Y sont liées. 



y À 

Yl - 


4- 

I x x X 
I x x x X 


I A Y , 

Je _I 

V x X | X . 
X x x x x X X X 
1 X J x\ 


domaine de 
X sachant yq 


-domaine de X - J 


La modification ici concerne aussi bien l’amplitude du domaine que sa localisation en termes de 
valeurs. 

L’appréciation visuelle de la dépendance correspond à l’appréciation de « l’épaisseur » de l’en¬ 
semble des points. Plus les points expérimentaux ont tendance à se répartir sur une courbe - non 
horizontale ni verticale - plutôt qu’à remplir une partie du plan, plus les variables sont liées. 
Peut-on trouver un indicateur numérique de la force d’une telle liaison ? Au sens strict, la réponse 
est non. 

Quelques situations de dépendance - c’est-à-dire de liaison - sont représentées sur les figures ci- 
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dessous. 



On ne sait pas, en toute généralité, résumer en un seul nombre exprimant la liaison entre deux va¬ 
riables continues les résultats d’une expérience. 

On ne connaît qu’un indicateur général prenant en compte non pas le degré de proximité à une 
courbe quelconque mais le degré de proximité à une droite : c’est le coefficient de corrélation [li¬ 
néaire]. 

Il faut voir cependant que dans la plupart des situations réelles au cours desquelles on s’intéresse 
à l’examen de la liaison entre deux variables, la possibilité d’interprétation des résultats est large¬ 
ment fonction du caractère monotone, sinon rectiligne, de la dépendance ; que dire en termes d’in¬ 
terprétation d’une dépendance figurée schématiquement sur la figure ci-dessous ? 



14.3 Un indicateur de covariation : le 
coefficient de corrélation 


Cherchons alors à quantifier un phénomène de covariation, c’est-à-dire un phénomène de variation 
couplée entre X et Y. 

On impose naturellement à l’indicateur recherché une invariance par translation : les phénomènes 
productifs de X et Y demeurent fondamentalement inaltérés s’ils produisent X + a, Y + b. Ainsi 
l’indicateur se fondera-t-il sur les valeurs x i - m x et y i - m y . Par ailleurs, on souhaite que l’indica¬ 
teur ne dépende pas des unités exprimant A et Y ; alors on travaillera sur 
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Liaison entre deux variables continues : notion de corrélation 



Maintenant si F et y présentent un caractère de covariation, c’est que de façon fréquente, sinon sys¬ 
tématique 

• soit les variables varient dans le même sens, c’est-à-dire lorsque x t est grand (i.e. x ri positif 
par exemple), y,- l’est également le plus souvent (i.e. y ri positif), que lorsque x- t est petit (x n < 
0) y'i l’est également ( y ri < 0) ; dans ce cas, le produit x ri y ri est fréquemment positif. 

• soit les variables varient en sens contraire : lorsque x t est grand, y, est petit, lorsque x t est pe¬ 
tit, y, est grand ; dans ce cas le produit x ri y ri est fréquemment négatif. 

Compte tenu de l’analyse précédente, on choisit pour indicateur de la covariation ou corrélation le 
nombre : 



Ainsi 


• si r est grand, c’est le signe d’une covariation dans le même sens de X et F ; 

• si r est petit (c’est-à-dire grand en valeur absolue et négatif), c’est le signe d’une covariation 
de X et F en sens contraire ; 

• si r est voisin de zéro, c’est le signe d’une absence de covariation. 

Retenons, exprimé sur la base des valeurs observées : 



r 


Le numérateur de cette expression est appelé la covariance observée des deux variables X et F, 
notée covq(X, F), dont on montre qu’elle s’exprime aussi sous la forme 



Les figures ci-dessous présentent diverses situations relativement au coefficient de corrélation ob¬ 
servé. 
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Liaison entre deux variables continues : notion de corrélation 




r> 0, grand 


r< 0, Irl grand 



r voisin de zéro 

Propriétés numériques fondamentales de r : 

• r a toujours une valeur comprise entre -1 et 1 ; 

• r prend la valeur -1 (respectivement 1) si et seulement si il existe des valeurs a et b telles 
qu’on ait pour tout i v ( - = ax t + b avec a négatif (respectivement a > 0). 

Remarques : 

• plus r est grand en valeur absolue, plus les variables sont dites corrélées, 

• la valeur absolue de r décroît, 

— lorsque s’estompe le caractère rectiligne du « nuage » des valeurs observées, 

— lorsque s’épaissit ledit nuage, 

• une valeur absolue très faible du coefficient de corrélation ne permet pas de conclure à l’in¬ 
dépendance de deux variables. Deux variables indépendantes présenteront en revanche un 
coefficient de corrélation observé très faible en valeur absolue. 
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Liaison entre deux variables continues : notion de corrélation 


Quelques exemples sont présentés ci-dessous pour fixer les idées. 




r » 0,9 


r » 0,7 




r » 0,7 r » 0,6 




r » 0,5 


r » 0,5 
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Liaison entre deux variables continues : notion de corrélation 




r « 0 r x 0 

Remarque complémentaire : 

Le coefficient de corrélation linéaire est, au même titre que toute statistique, soumis aux fluctua¬ 
tions d’échantillonnage. La question se pose alors de savoir que faire de cet indicateur en termes 
d’inférences. Par exemple, avant de conclure que les deux variables sont corrélées, peut-on se ga¬ 
rantir du risque de l’observation d’un coefficient de corrélation nul sur une plus grande série 
d’observations ? On se retrouve dans le contexte des tests d’hypothèses avec ici une difficulté sup¬ 
plémentaire qui tient au fait que l’on n’a pas quitté le niveau expérimental, le niveau intuitif. Il 
convient de trouver une contrepartie « vraie » à ce coefficient de corrélation observé r. 


14.4 Le coefficient de corrélation « vrai » 


Cherchons à substituer de la façon la plus naturelle possible des grandeurs « vraies » aux grandeurs 
observées constitutives de r. On note l’apparition au dénominateur de s x et s Y auxquelles on subs¬ 
titue naturellement <j x et a F> l es écarts types « vrais » de X et F. Au numérateur on remarque m x 
et m y auxquels on substitue E(X ) et E(Y) les moyennes « vraies » de X et Y. Reste au numérateur 
une moyenne observée (lisons n à la place de n-\) ; on lui substitue une moyenne « vraie » : 
moyenne « vraie » du produit [X - is(X)][F - E{Y)\ soit ,E{[A - £(A)][F - .E(F)]}. 

Cette moyenne « vraie » dépendant de A et F à la fois s’appelle covariance « vraie » de X et F. 
Finalement, on obtient la contrepartie « vraie » notée p : 

p(X> y) = E{[X-E(X)][Y-E(Y)]} 

<J X <Jy 

Remarque : à propos des notions d’espérance, de covariance « vraie », de coefficient de corrélation 
« vrai », voir le chapitre 6. 
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Liaison entre deux variables continues : notion de corrélation 


14.5 Test d’égalité du coefficient de 
corrélation « vrai » p à 0 


Des calculs théoriques complexes, et imposant un certain nombre de restrictions, qui, dépassant le 
cadre de ce cours, ne seront pas mentionnés, permettent de calculer la distribution de r sous 
l’hypothèse - retenue comme hypothèse nulle - de nullité du coefficient de corrélation « vrai » p. 
Il s’agit d’une famille de distributions indexées par un entier appelé nombre de degrés de liberté. 
La mise en œuvre du test est alors conventionnelle : 

• H 0 : p = 0 [les variables ne sont pas corrélées], 

H l : p ^ 0 [les variables sont corrélées] 

• Paramètres du test : coefficient de corrélation observé 

'Z( x i- m xK y i- m y) 

r = --- 

s x s Y 

• sous H 0 , r suit une distribution connue, dite du coefficient de corrélation an- 2 degrés de li¬ 
berté où n est le nombre de couples (xi, yi) expérimentaux. L’intervalle de pari pour r est de 
la forme 

IPj a = [-corr a (n - 2 ) ; corr a (« - 2 )], corr a (n - 2 ) étant lue dans une table. 

Conditions de validité 

Les conditions de validité sont complexes et expriment que toute combinaison linéaire des va¬ 
riables X et Y est distribuée selon une loi normale. Autrement dit, toute variable aX + b Y où 
a et b sont deux nombres quelconques doit être normale. 

Pour la commodité de l’expression, on énoncera les conditions de validité sous le néologisme 
« distribution de (A, Y) binormale ». 

• la suite de la mise en œuvre est standard. 


Quelques exemples numériques 

Au risque 5 % : 

n = 10, IP 0 95 = [-0,632 ; 0,632], ddl = 8 
n = 20, IP 0 95 = [-0,444 ; 0,444], ddl = 18 
n = 50, IP 0 ’ 95 = [-0,280 ; 0,280], ddl = 48 

Ainsi, par exemple, pour pouvoir conclure à la corrélation, lorsque l’on dispose de 20 observations 
(20 couples (Xj, y ,-)), le coefficient de corrélation observé doit être supérieur à 0,444, ou inférieur 
à -0,444. 


Autre formulation du test 


On peut montrer que 



est, sous H 0 , distribué selon une loi de Student an -2 ddl. 
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Liaison entre deux variables continues : notion de corrélation 


Si on préfère utiliser ce paramètre plutôt que r, il faut lire la table de Student pour construire l’in¬ 
tervalle de pari. 


160/179 


Biostatistique - Carrat, Mallet, Morice 


« 


FACULTE DE mEOECIDE 


£ 


2013 -2014 



Liaison entre deux variables continues : notion de corrélation 


Résumé du chapitre 


1. La corrélation entre deux variables aléatoires quantitatives X et Y se mesure à l’aide du coef¬ 
ficient de corrélation « vrai » : 


2 . 


3. 

4. 


p(X> y) = E{[X-E(X)][Y-E(Y)]} 
a x a y 

Propriétés : 

• p(X, Y) e [-1 ; 1] 

• Si X, Y indépendantes, alors p(X, Y) = 0 


Disposant d’un échantillon de 
observé : 

r = --- 

S X S Y 


n couples (jq, yf) on définit le coefficient de corrélation 


n 

n - 1 




m x m 


\ 

y 

J 


s x s Y 


Propriété : r e [-1 ; 1] 

Il existe un test de nullité du coefficient de corrélation « vrai » dont le paramètre est r. 
Indépendance et corrélation sont des notions différentes ; deux variables dont le coefficient 
de corrélation « vrai » est nul peuvent être liées. 
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Liaison entre deux variables continues : notion de corrélation 
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Chapitre 15 


Méthodologie des études 
épidémiologiques 

The world is richer in associations than meanings, and it is the part ofwisdom to dijferentiate the 
two. John Barth 


15.1 La causalité 


La causalité est une thématique centrale en philosophie des sciences et en logique, et les premiers 
écrits sur ce sujet remontent à Aristote. Jusqu’au 18 eme siècle, la causalité nait de l’observation, et 
les connaissances sont construites à partir des observations sans idée préconçues du réel (inférence 
dite inductive). Nous formons alors une sorte d’anticipation, qui nous représente que le second évé¬ 
nement (l’effet) doit se produire quand le premier (la cause) se produit - même si les mécanismes 
explicatifs liant ces deux événements nous échappent. Dans la vie courante, l’acquisition de nos 
apprentissages ou l’application des règles de « bon sens », illustrent cette conception de la causa¬ 
lité. Hume, philosophe écossais, montrera pourtant les limites de ce principe et l’impossibilité de 
prouver la relation causale de l’observation de la succession de deux événements dont on ne peut 
jamais exclure la coïncidence. 

Le questionnement sur la causalité en médecine est également ancien. Claude Bernard écrit en 
1865 : 

« L’esprit de l’homme ne peut concevoir un effet sans cause, de telle sorte que la vue d’un phéno¬ 
mène éveille toujours en lui une idée de causalité. Toute la connaissance humaine se borne à re¬ 
monter des effets observés à leur cause. À la suite d’une observation, une idée relative à la cause 
du phénomène observé se présente à l’esprit ; puis on introduit cette idée anticipée dans un rai¬ 
sonnement en vertu duquel on fait des expériences pour la contrôler. » 

On retrouve dans ce propos une conception différente de la causalité : il s’agit de déduire (au sens 
strict) les conséquences d’une hypothèse et ensuite de comparer ces conséquences aux données. 
S’il y a désaccord, alors l’hypothèse est réfutée. Dans le cas contraire, l’hypothèse n’est pas prou¬ 
vée mais notre croyance en elle s’en trouve renforcée. Cette conception, de type déductif, formali¬ 
sée par Karl Popper au début du 20 eme siècle, s’est imposée comme le socle de la découverte 
scientifique. 

Des livres d’épidémiologie entiers, dont certains très mathématiques utilisant les outils de la lo¬ 
gique, traitent de ce problème de la causalité. On retiendra qu’une relation causale entre deux ca¬ 
ractères pourra être évoquée lorsque l’un des deux est « contrôlé ». L’essai contrôlé est la seule 
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méthode qui permet de mesurer l’effet causal d’une intervention, par exemple un traitement, sur 
un événement, par exemple, la guérison d’une maladie. 


15.2 Démarche expérimentale et démarche 
d’observation 

Caractère contrôlé ; caractère aléatoire 

Dans ce qui suit, les termes caractère, caractéristique, variable et facteur sont considérés 
comme synonymes. 

On dit d’un caractère qu’il est contrôlé lorsque sa détermination nous appartient. 
Exemple : on s’intéresse à l’effet d’un traitement sur la survenue d’un type de cancer chez 
des souris. Le caractère absence ou présence du traitement est contrôlé car déterminé par 
l’expérimentateur. 

Dans le cas contraire, on dit que le caractère est aléatoire. Exemple : la survenue du can¬ 
cer chez la souris. 

Lorsqu’on envisage un problème de liaison entre deux variables (cela recouvre tous les pro¬ 
blèmes que l’on a rencontrés) un au plus des caractères peut être contrôlé. 

Démarche expérimentale 

Lorsque l’expérience se conduit avec un facteur contrôlé, on dit que l’on suit une dé¬ 
marche expérimentale. Dans ce cas, au cours de la constitution de l’échantillon qui per¬ 
mettra de mettre en œuvre les tests, on décide du choix de la valeur d’un caractère (par 
exemple, on décide si le X eme patient sera traité ou non, et on étudie la guérison de la ma¬ 
ladie). 

Démarche d’observation 

Lorsque l’expérience se conduit sur la base de deux facteurs aléatoires, on dit que l’on suit 
une démarche d’observation (par exemple, on observe si le X eme sujet est fumeur ou non, 
et on étudie la survenue de cancer). 

Principe fondamental 

La discussion de la causalité ne se conçoit pas sans contrôle d’un des deux caractères étu¬ 
diés. 

Autrement dit, on ne peut mesurer un effet causal hors d’une démarche expérimentale. 
Seule cette démarche, en effet, permet d’assurer que les individus constituant l’échantillon 
sont comparables en tout (homogènes) sauf pour ce qui concerne le caractère contrôlé. En¬ 
core faut-il assurer cette homogénéité et la méthode de référence est le tirage au sort. On 
parle de randomisation pour l’attribution par tirage au sort du caractère contrôlé, le traite¬ 
ment. 
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15.3 Les essais randomisés 


15.3.1 Définition 

Le but de l’essai randomisé est, grâce à une démarche expérimentale rigoureuse, d’évaluer l’effi¬ 
cacité d’une intervention de santé, par exemple un nouveau traitement - on parle alors d’essai thé¬ 
rapeutique randomisé. Il peut s’agir également d’une autre intervention médicale, par exemple une 
technique chirurgicale, un programme d’éducation pour la santé, un dispositif médical, une mé¬ 
thode diagnostique. 

Dans un essai thérapeutique pour une maladie, on cherche le plus souvent à montrer qu’un nouveau 
traitement a une efficacité supérieure à celle du traitement habituellement utilisé dans cette mala¬ 
die, ou à l’absence de traitement (notamment lorsqu’il n’existe pas encore de traitement d’usage 
pour la maladie étudiée). Parce que l’attribution du traitement est contrôlée et décidée par tirage au 
sort, on sera le cas échéant en mesure de conclure qu’une différence d’efficacité est causée par le 
traitement (au risque d’erreur statistique choisi). La réalisation d’un essai thérapeutique nécessite 
donc de définir le critère que l’on utilisera pour juger de l’efficacité - appelé critère de jugement. 
Des exemples de critères de jugement sont la régression des symptômes d’une maladie, la durée de 
survie, la valeur d’une constante biologique, un score de qualité de vie .... En pratique on distingue 
les critères de jugement objectifs, reposant sur une grandeur évaluable par une mesure physique 
objective, par exemple la charge virale, la concentration de cholestérol sanguin, la survie, ... des 
critères de jugement subjectifs, qui peuvent être influencés par des effets de type psychologique, 
par exemple la douleur, l’anxiété, la qualité de vie, la mesure d’une impotence à une épreuve de 
marche, ... L’essai thérapeutique doit être organisé afin de limiter au maximum les biais pouvant 
modifier le déroulement de l’essai ou l’interprétation du critère de jugement. 


15.3.2 Comment limiter les biais dans le déroulement d’un 
essai thérapeutique randomisé ? Aveugle et placebo 

Le placebo est une présentation à l’identique du médicament à l’étude mais qui ne contient pas le 
principe actif. Ainsi lorsqu’un essai randomisé contre placebo est réalisé, un sujet dans l’essai re¬ 
cevra au hasard soit le médicament à l’étude soit une copie de ce médicament, et ni ce sujet, ni le 
médecin qui le prend en charge dans l’étude, ni la personne (souvent le médecin) qui évaluera le 
critère de jugement ne sauront ce qui est réellement pris. On parle dans ce cas de mise en insu ou 
d’aveugle. Les sujets recevant le placebo constituent ce que l’on appelle le groupe témoin (ou 
groupe contrôle par anglicisme). L’aveugle est justifié pour deux raisons principales : 1) d’une 
part, parce qu’il garantit que les patients seront a priori pris en charge et suivis de la même manière 
dans l’essai quel que soit le groupe dans lequel ils ont été randomisés. En l’absence d’aveugle, un 
patient recevant, par exemple, un placebo, pourrait être amené plus facilement à interrompre rapi¬ 
dement sa participation dans l’essai (puisqu’il ale placebo) pour pouvoir bénéficier d’un autre trai¬ 
tement, contrairement à un patient recevant le traitement à l’étude ; un patient recevant le 
traitement à l’étude pourrait faire l’objet de plus d’attention que celui du groupe placebo et 2) 
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d’autre part, parce qu’il permet d’éviter une interprétation tendancieuse ou biaisée du critère de ju¬ 
gement si celui-ci est subjectif. L’évaluateur d’une douleur résiduelle 6 mois après le début de l’es¬ 
sai sera inévitablement influencé dans son jugement s’il connaît le groupe du patient, et aura 
tendance à trouver une plus grande efficacité sur la douleur chez les patients qui reçoivent le trai¬ 
tement à l’étude que chez les patients du groupe témoin. 

D’ailleurs, en cas d’absence d’aveugle, le simple fait de soumettre un sujet à un traitement améliore 
souvent un critère de jugement subjectif, même si ce traitement n’a aucune efficacité intrinsèque : 
c’est l’effet placebo. 

L’effet placebo est défini comme l’écart positif constaté entre l’effet thérapeutique observé et l’ef¬ 
fet pharmacologique propre d’un médicament. Si l’on donne une substance inerte sur le plan phar¬ 
macologique, on observera uniquement un effet placebo. On considère ainsi que l’homéopathie ou 
d’autres médecines « douces », relèvent uniquement de l’effet placebo et donc que l’effet de ces 
thérapeutiques est exclusivement subjectif. Dans un essai en aveugle, l’effet placebo est réparti de 
la même manière entre les deux groupes de patients, et la différence observée est donc imputable 
aux seules propriétés pharmacologiques du traitement. 

Un essai contre placebo en aveugle peut porter sur d’autres interventions que le seul médicament. 
Un exemple célèbre récent porte sur la chirurgie du genou chez les sujets obèses. Jusque récem¬ 
ment, tous les essais indiquaient une amélioration franche de la douleur et de la mobilité chez les 
sujets randomisés dans le groupe ayant subi l’intervention chirurgicale ligamentaire par rapport à 
ceux randomisés dans le groupe sans intervention. Jusqu’au jour où un essai fut conduit comparant 
des sujets chez qui l’intervention sur les ligaments était réalisée, à des sujets endormis et chez les¬ 
quels un simulacre d’intervention (ouverture/fermeture simple de la cavité articulaire) était réalisé. 
Le résultat montrait l’amélioration de la douleur dans les deux groupes (l’effet placebo), et l’ab¬ 
sence de différence entre les deux groupes (donc l’absence d’efficacité intrinsèque de l’interven¬ 
tion). 


15.3.3 Comment limiter les biais dans l’analyse d’un essai 
thérapeutique randomisé ? Intention de traiter 

L’analyse des résultats d’un essai thérapeutique est effectuée grâce à la méthode statistique. Ce 
sont les tests statistiques qui permettent de conclure si les différences observées entre le groupe de 
sujets traités et le groupe de sujets non traités ou recevant le placebo permettent de rejeter ou non 
l’hypothèse d’égalité de traitement, c’est-à-dire de conclure qu’un traitement est ou non meilleur 
que l’autre. De façon tout à fait générale, les tests employés sont des tests bilatéraux. De façon tout 
aussi générale, dans ce type d’essai de supériorité ou d’efficacité, l’analyse statistique est effectuée 
selon le principe de l’intention de traiter. Ce principe consiste à considérer le patient dans l’essai 
littéralement « tel qu’on avait l’intention de le traiter », c’est à dire, dans le groupe dans lequel il 
avait été randomisé - peu importe ce qui a été réellement pris. Par exemple, un patient randomisé 
dans le groupe placebo pourrait en réalité recevoir le traitement à l’essai pendant toute la durée de 
l’étude, par simple erreur au moment de la délivrance du médicament : quand bien même, ce pa¬ 
tient sera analysé dans le groupe placebo. Le principe de l’analyse en intention de traiter a pour 
objectif de préserver les bénéfices de la randomisation au moment de l’analyse des résultats, et de 
limiter les biais liés aux écarts entre le protocole de l’essai et la conduite de celui-ci. En pratique, 
la conséquence implicite d’une analyse en intention de traiter sera que tout patient randomisé sera 
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inclus dans l’analyse y compris ceux n’ayant pas bien voire pas du tout pris le traitement qui leur 
était alloué. 

Cependant, les études randomisées ne sont pas toujours réalisables d’où l’importance de la ques¬ 
tion de causalité dans les études observationnelles en médecine. En particulier, si l’expérimentation 
peut parfois permettre de mesurer un effet causal entre un traitement et une maladie, elle est très 
souvent impossible lorsque la cause potentielle étudiée est un risque. 


15.4 Les études d’observation 


On regroupe sous cette terminologie, les études dont l’objectif est d’identifier les facteurs associés 
à des événements de santé et ne reposant pas sur une démarche expérimentale. Il est en effet contre 
les principes éthiques d’exposer une personne à une cause potentielle de maladie pour étudier com¬ 
ment celle-ci survient - par exemple faire fumer par tirage au sort des sujets pour étudier le rôle du 
tabac dans les cancers. En revanche, les personnes d’elles-mêmes se répartissent souvent en expo¬ 
sées /non exposées (ex : fumeur/non fumeur), et le but de ces études d’observation sera donc 
d’étayer avec la meilleure démarche possible l’hypothèse testée à partir de ces observations. 

Les études d’observation peuvent être catégorisées en cohortes - cas-témoins et transversales ; 
prospectives et rétrospectives. On notera que cette terminologie peut s’appliquer également à la dé¬ 
marche expérimentale : un essai thérapeutique est une étude prospective imposant un recueil de 
données longitudinales. Dans les études d’observation, on étudie le plus souvent l’association entre 
une exposition et un événement de santé. 

L’exposition peut être un risque (par exemple fumer, un polymorphisme génétique), ou un bénéfice 
(par exemple un traitement, le poids). Des événements de santé sont par exemple, la survenue 
d’une maladie, une guérison, un décès, une récidive, etc ... 


15.4.1 Cohortes - Cas-témoins et études transversales 

Etudes de cohorte 

Une cohorte était le dixième d’une légion romaine. C’est plus généralement un ensemble 
de sujets. Dans une étude dite de cohorte les sujets sont répartis en groupes en fonction 
de leur exposition (par exemple, fumeur/non fumeur) et l’événement n’est pas survenu au 
moment où cette répartition est faite. Chacun de ces groupes définit une « sous cohorte », 
et la comparaison du taux de survenue de l’événement entre ces différentes sous cohortes, 
permettra de mesurer l’association entre exposition et événement. D’un point de vue pra¬ 
tique l’étude de cohorte est la démarche d’observation la plus « proche » de l’essai rando¬ 
misé, la principale différence étant que dans un essai, l’attribution de l’exposition (le 
traitement) est réalisée par tirage au sort. 

Etudes cas-témoins 

Dans une étude cas-témoins (ou cas-contrôle), les groupes de sujets sont constitués en 
fonction de leur réalisation ou non de l’événement de santé : les cas sont par exemple 
les malades atteints d’un cancer et les témoins, des sujets non atteints de ce cancer. On com- 
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pare les niveaux d’exposition dans ces deux groupes pour étudier l’association entre expo¬ 
sition et événement de santé. En général, on choisit de un à 4 témoins pour chaque cas et la 
proportion de malades dans l’étude est complètement déterminée (de 50 % pour 1 témoin 
pour 1 cas, à 20 % pour 4 témoins par cas), et ne correspond en rien à la proportion de ma¬ 
lades dans la population cible. 

Etudes transversales 

Une étude transversale est une étude descriptive dont le principe est essentiellement de 
recueillir simultanément des informations sur expositions et événements de santé sur un 
échantillon représentatif de la population cible - celle à laquelle on souhaite pouvoir extra¬ 
poler les résultats. Les enquêtes de prévalence sont un exemple typique de ces études trans¬ 
versales, dans lesquelles on évalue le nombre de malades présents à un instant dans la 
population, et qui identifie les facteurs associés aux variations de prévalence. Ces études 
transversales sont limitées par l’absence de description temporelle des expositions (et des 
événements), mais peuvent permettre d’identifier des relations entre événement de santé et 
exposition lorsque celles-ci sont invariables dans le temps (par exemple, le sexe, le groupe 
sanguin, ...). 


15.4.2 Etudes prospectives et rétrospectives 

Une étude est dite prospective lorsque l’exposition est mesurée avant la survenue de l’événement 
étudié. Une étude est dite rétrospective lorsque la mesure de l’exposition survient après la surve¬ 
nue de l’événement. Par exemple, une étude dans laquelle on mesure la consommation journalière 
de tabac, et dans laquelle on observe la survenue de cancer au cours du suivi des sujets est une étude 
prospective ; a contrario, demander la consommation de tabac des dix dernières années à des sujets 
ayant un cancer est une étude rétrospective. On notera que cette définition de prospective/rétros¬ 
pective n’est pas consensuelle, et les épidémiologistes modernes recommandent de ce fait, de ne 
plus utiliser cette terminologie. 


15.4.3 Données longitudinales 

On dit que les données sont longitudinales lorsque qu’il existe plusieurs mesures à travers le temps 
par sujet. Par exemple, la mesure du taux de cholestérol chez un sujet tous les 6 mois, ou la mesure 
du statut fumeur/non fumeur au cours du temps est une donnée longitudinale. Les mesures longi¬ 
tudinales chez un même sujet ne peuvent pas être considérées comme réalisation de variables aléa¬ 
toires indépendantes ; par exemple, le taux de cholestérol d’un sujet à un instant quelconque 
apporte une information sur le taux de cholestérol du même sujet 6 mois plus tard. Il faudra tenir 
compte de cette non-indépendance dans les analyses statistiques de ces données - qui seront sou¬ 
vent complexes. 
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15.4.4 En pratique 

Le plus souvent, une étude de cohorte sera prospective, et aura recueilli des données longitudinales. 
Le plus souvent une étude cas-témoins sera rétrospective. 


15.5 Mesures d’association utilisées en 
épidémiologie 


On traite le cas le plus simple où une exposition est répartie en deux niveaux (oui/non, présent/ab- 
sent, exposé/ non exposé), et on notera E+ l’exposition, E- l’absence d’exposition au facteur étu¬ 
dié. 

L’événement d’intérêt est également catégorisé en deux niveaux, M+ pour malade, M- pour non- 
malade. On notera que dans le cas d’un essai thérapeutique E+ est le traitement à l’étude, et M- 
peut être défini comme le succès thérapeutique, donc ce qui suit s’applique aussi bien à l’essai ran¬ 
domisé qu’aux études d’observation. 

A partir de cette catégorisation, il est possible de dresser le tableau suivant : 



M+ 

M- 

E+ 

ni 

n2 

E- 

n3 

n4 


On définit 

— le risque absolu chez les exposés, comme la proportion vraie de malades parmi les exposés 
P(M+ I E+), estimé par nl/(nl+n2) 

— le risque absolu chez les non exposés, comme la proportion de malades chez les non exposés, 
P(M+ I E-), estimé par n3/(n3+n4) 

— le risque relatif est une mesure d’association, défini comme le rapport des risques absolus 
chez les exposés et non exposés, P(M+ I E+) / P(M+ I E-). 

Ce risque est estimé par nl/(nl+n2) / n3/(n3+n4) 

— le rapport des cotes (odds-ratio en anglais) est une autre mesure d’association très utilisée en 
biomédecine. Rappelons que la cote d’un événement est définie comme le rapport de sa pro¬ 
babilité sur son complémentaire : jouer à une cote de 9 contre 1 signifie jouer avec 9 chance 
de perdre contre une chance de gagner. 

Le rapport des cotes est défini comme le rapport de la cote de la maladie chez les exposés 
P(M+ I E+)/P(M-1 E+) sur la cote de la maladie chez les non-exposés P(M+ I E-)/P(M-1 E-), 
mais aussi, par application du théorème de Bayes, comme le rapport de la cote des expositions 
chez les malades P(E+ I M+)/P(E-1 M+), par la cote des expositions chez les non malades 
P(E+ I M-)/P(E-1 M-). Il est estimé par le rapport des produits croisés (nln4) / (n2n3). 


2013 - 2014 


Biostatistique - Carrat, Mallet, Morice 


& 


FACULTE DE fDEOECinE 


169/179 










Méthodologie des études épidémiologiques 


Le rapport des cotes est la seule quantité pertinente qui peut être estimée dans une étude cas-té¬ 
moins puisque le nombre total de sujets non malades est déterminé par le nombre de témoins choisi 
par cas. Si la maladie est rare dans la population cible, aussi bien chez les exposés que chez les non- 
exposés, P(M+) est proche de 0 et donc P(M-) voisin de 1, et P( M+ I E+)/P(M-1 E+) est voisin de 
P( M+ I E+) ; P(M+ I E-)/P(M- I E-) proche de P(M+ I E-) et donc le rapport des cotes défini ci-des¬ 
sus est proche de du risque relatif. 

Le risque relatif et le rapport des cotes sont des quantités qui peuvent prendre les valeurs entre 0 et 
l’infini. Sous l’hypothèse (nulle) d’indépendance entre l’exposition et l’événement étudié, ces 
deux quantités valent 1. 

Un risque relatif ou un rapport de cotes supérieur à 1 (conclusion que l’on portera après avoir fait 
le test d’hypothèse approprié) signifie que l’exposition est un facteur de risque de l’événement étu¬ 
dié. Un risque relatif ou un rapport de cotes inférieur à 1 signifie que l’exposition est un facteur 
protecteur de l’événement. Un risque relatif de 50 (par exemple) pour l’exposition « fumeur » et 
l’événement « cancer du poumon » s’interprète littéralement comme « il y a 50 fois plus de cancer 
du poumon chez les fumeurs que chez les non fumeurs ». 


15.6 Risque attribuable, proportion de cas 
évitables 


Cette section a été écrite par A. J. Valleron. 

Le risque attribuable à un facteur est la proportion des cas que l’on pourrait éviter en supprimant 
ce facteur, lorsqu’il est causal. Par exemple, le risque de cancers du poumon attribuable au tabac 
est de l’ordre de 90 % (si on supprimait par magie le tabac, environ 10 % des cancers des bronches 
surviendraient encore, car ils sont dus à d’autres facteurs). 

Soit : 

— N le nombre total de malades ; 

— N f le nombre de malades exposés au facteur F ; 

— N nf le nombre de malades non exposés au facteur F. 

On peut écrire N = N F + N nf . 

Parmi les N Pr(M ) cas totaux de maladie, on ne peut éviter les N Pr(MINF) cas qui seraient sur¬ 
venus de toute façon en l’absence du facteur F. On peut espérer éviter les NF autres. La proportion 
maximale de cas que l’on peut éviter est donc : 

Pr(M ) - Pr(M/NF ) 

Pr(M ) 

Soit/ la proportion de sujets exposés. En écrivant que : Pr{M ) =/ Pr (M/F) + (1 -f) Pr(M/NF ) on 
trouve que le risque attribuable vaut : 

/(RR - 1) 

/(RR - 1) + 1 
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Résultat : 

Dans une population où une proportion/ des sujets est exposée à un facteur F augmentant 
le risque de maladie, cette augmentation étant caractérisée par le risque relatif RR = Pr(M/ 
F)/Pr(M/NF), le risque attribuable au facteur, c’est à dire la proportion maximale de cas qui 
peut être évitée vaut 

/(RR - 1) 

/(RR-l)+r 

La proportion calculée grâce à cette formule est « maximale » : elle n’est atteinte que si le facteur 
F a un rôle causal dans le déclenchement de la maladie. Par exemple, l’exposition au tabac est un 
facteur causal du cancer des bronches. L’alcoolisme ne l’est pas. Pourtant, le risque relatif RR de 
cancer des bronches chez les alcooliques est supérieur à 1 parce que les alcooliques sont plus sou¬ 
vent fumeurs que les non alcooliques. L’alcoolisme est appelé facteur de confusion. Bien entendu, 
en supprimant l’alcool, on ne supprimerait pas le cancer des bronches ! 
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Résumé du chapitre 

1. L’essai contrôlé randomisé permet de mesurer de l’effet causal d’une intervention de santé, 
un traitement par exemple. 

2. La randomisation qui consiste à tirer au sort l’attribution de l’intervention, permet d’assurer 
que les individus constituant l’échantillon sont comparables en tout (homogènes) sauf pour ce 
qui concerne le caractère contrôlé. 

3. Dans un essai randomisé, le critère de jugement est la variable qui sera comparée entre les 
groupes pour juger de l’efficacité de l’intervention. On distingue critères de jugements objec¬ 
tifs (ex : décès) et subjectifs (ex : douleurs), ces derniers pouvant être facilement influencés 
par d’autres effets que les effets propres de l’intervention. 

4. L’effet thérapeutique dans un essai est la somme de l’effet pharmacologique propre et de l’ef¬ 
fet placebo. 

5. La mise en aveugle qui signifie que ni le patient, ni le médecin qui le suit, ni l’évaluateur du 
critère ne savent dans quel groupe est randomisé le patient, est utilisée pour limiter les biais. 

6 . L’analyse en intention-de-traiter signifie que l’on compare le critère de jugement entre les 
groupes tels qu’ils ont été constitués par la randomisation. Elle implique que tous les patients 
randomisés sont conservés dans l’analyse. 

7. Dans une étude d’observation, il n’est pas possible de conclure causalement, juste de mettre 
en évidence des associations entre expositions (par exemple fumer) et événement de santé 
(par exemple un cancer). 

8 . Les études d’observations visent à identifier les facteurs associés à des événements de santé ; 
il s’agit souvent de risques. 

9. On distingue les études de cohortes, où les sujets sont répartis en groupes en fonction de leur 
exposition (ex : fumeur/non fumeur) ; les études cas-témoins, où les sujets sont répartis en 
groupes en fonction de la réalisation ou non de l’événement de santé (ex cancer/ pas cancer) ; 
les études transversales, où expositions et événements sont mesurés simultanément. 

10. Une étude est dite prospective lorsque l’exposition est mesurée avant la survenue de l’événe¬ 
ment étudié. Une étude est dite rétrospective lorsque la mesure de l’exposition survient après 
la survenue de l’événement. 

11. Le risque relatif et le rapport des cotes mesurent la force de l’association entre l’exposition et 
l’événement de santé étudié. Ils valent 1 en cas d’absence d’association. 
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A.l TABLE DE LA VARIABLE NORMALE 
REDUITE Z 


A 



a 

0,00 

0,01 

0,02 

0,03 

0,04 

0,05 

0,06 

0,07 

0,08 

0,09 

0,00 

oo 

2,576 

2,326 

2,170 

2,054 

1,960 

1,881 

1,812 

1,751 

1,695 

0,10 

1,645 

1,598 

1,555 

1,514 

1,476 

1,440 

1,405 

1,372 

1,341 

1,311 

0,20 

1,282 

1,254 

1,227 

1,200 

1,175 

1,150 

1,126 

1,103 

1,080 

1,058 

0,30 

1,036 

1,015 

0,994 

0,974 

0,954 

0,935 

0,915 

0,896 

0,878 

0,860 

0,40 

0,842 

0,824 

0,806 

0,789 

0,772 

0,755 

0,739 

0,722 

0,706 

0,690 

0,50 

0,674 

0,659 

0,643 

0,628 

0,613 

0,598 

0,583 

0,568 

0,553 

0,539 

0,60 

0,524 

0,510 

0,496 

0,482 

0,468 

0,454 

0,440 

0,426 

0,412 

0,399 

0,70 

0,385 

0,372 

0,358 

0,345 

0,332 

0,319 

0,305 

0,292 

0,279 

0,266 

0,80 

0,253 

0,240 

0,228 

0,215 

0,202 

0,189 

0,176 

0,164 

0,151 

0,138 

0,90 

0,126 

0,113 

0,100 

0,088 

0,075 

0,063 

0,050 

0,038 

0,025 

0,013 


La probabilité a s’obtient par addition des nombres inscrits en marge 
exemple : pour u a = 0,994, la probabilité est a = 0,30 + 0,02 = 0,32 

TABLE POUR LES PETITES VALEURS DE LA PROBABILITÉ 


a 

0,001 

0,000 1 

0,000 01 

0,000 001 

0,000 000 1 

0,000 000 01 

0,000 000 001 

U a 

3,29053 

3,89059 

4,41717 

4,89164 

5,32672 

5,73073 

6,10941 


(d’après Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver 
and Boyd, Edinburgh) avec l’aimable autorisation des auteurs et des éditeurs) 
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A.2 TABLE DU TEST DE WILCOXON 


Table adaptée de Siegel 



a 

n 

0,05 

0,02 

0,01 

6 

2,118 



7 

1,961 

2,299 


8 

2,044 

2,324 

2,464 

9 

2,026 

2,263 

2,381 

10 

1,947 

2,253 

2,456 

11 

2,009 

2,276 

2,454 

12 

2,008 

2,322 

2,479 

13 

1,964 

2,313 

2,523 

14 

1,952 

2,329 

2,517 

15 

1,965 

2,306 

2,533 


Indique, pour n < 15 les valeurs de W a pour a = 0,05, 0,02 et 0,01. 
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A.3 TABLE DU TEST DE MANN- 
WHITNEY-WILCOXON 


Table adaptée de Siegel 


n B 

n A 

a 

3 

4 

5 

6 

7 

8 

9 

10 


4 

0,05 

2,333 

1,905 







0,01 

2,687 

2,483 







5 

0,05 

2,117 

2,107 

2,110 






0,01 

2,415 

2,596 

2,528 






6 

0,05 

1,962 

2,047 

2,118 

2,018 





0,01 

2,479 

2,473 

2,483 

2,498 





7 

0,05 

2,074 

2,003 

1,965 

2,086 

2,057 




0,01 

2,530 

2,570 

2,615 

2,514 

2,56S 




8 

0,05 

1,960 

1,970 

1,991 

2,014 

2,037 

1,953 



0,01 

2,572 

2,480 

2,576 

2,530 

2,500 

2,584 



9 

0,05 

2,052 

2,099 

2,013 

1,956 

2,022 

1,982 

2,040 


0,01 

2,422 

2,561 

2,680 

2,546 

2,551 

2,560 

2,570 


10 

0,05 

1,961 

2,065 

2,033 

2,017 

2,010 

2,008 

2,009 

2,011 

0,01 

2,366 

2,489 

2,523 

2,560 

2,498 

2,541 

2,580 

2,540 


Indique, pour n A < 10 et n B < 10 ,n A < n B , les valeurs de M a , pour a=0,05 et a=0,01. 
Exemple : n A = 5, n B =8 : M 0 0 5=1,991 
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A.4 TABLE DE y 1 


La table donne la probabilité a pour que égale 
ou dépasse une valeur donnée, en fonction du 
nombre de degrés de liberté (d. d. 1.) 

Quand le nombre de degrés de liberté est élevé. 



est à peu près distribué normalement 


autour de J2(d.d.\.) — 1 avec une variance 
égale à 1 



a 

ddl 

0,90 

0,50 

0,30 

0,20 

0,10 

0,05 

0,02 

0,01 

0,001 

î 

0,0158 

0,455 

i ,974 

1,642 

2,7 

3,iWl 

5,415 

6,635 

10,827 

2 

0,211 

1.386 

2,408 

3,219 

4,605 

5,991 

7,824 

9,210 

13,815 

3 

0,584 

2.366 

3,665 

4,642 

6,251 

7,815 

9,837 

11,345 

16,266 

4 

1,064 

3,357 

4,878 

5,989 

7,779 

9,488 

11,668 

13,277 

18,467 

S 

1,610 

4,351 

6,064 

7,289 

9,236 

11,070 

13,388 

15,086 

20,515 

6 

2,204 

5,348 

7,231 

8,558 

10,645 

12,592 

15,033 

16,812 

22,457 

7 

2,833 

6,346 

8,383 

9,803 

12,017 

14,067 

16,622 

18,475 

24,322 

8 

3.490 

7,344 

9,524 

11,030 

13,362 

15,507 

18,168 

20,090 

26,125 

9 

4.168 

8.343 

10,656 

12,242 

14,684 

16,919 

19,679 

21,666 

27,877 

10 

4,865 

9,342 

11,781 

13,442 

15,987 

18,307 

21,161 

23,209 

29,588 

11 

5,578 

10,341 

12,899 

14,631 

17,275 

19,675 

22,618 

24,725 

31,264 

12 

6,304 

11,340 

14,011 

15,812 

18,549 

21,026 

24,054 

26,217 

32,909 

13 

7,042 

12,340 

15,119 

16,985 

19,812 

22,362 

25,472 

27,688 

34,528 

14 

7,790 

13,339 

16,222 

18,151 

21,064 

23,685 

26,873 

29,141 

36,123 

15 

8,547 

14,339 

17,322 

19,311 

22,307 

24,996 

28,259 

30,578 

37,697 

16 

9,312 

15,338 

18,418 

20,465 

23,542 

26,296 

29,633 

32,000 

39,252 

17 

10,085 

16,338 

19,511 

21,615 

24,769 

27,587 

30,995 

33,409 

40,790 

18 

10,865 

17,338 

20,601 

22,760 

25,989 

28,869 

32,346 

34,805 

42,312 

19 

11,651 

18,338 

21,689 

23,900 

27,204 

30,144 

33,687 

36,191 

43,820 

20 

12,443 

19,337 

22,775 

25,038 

28,412 

31,410 

35,020 

37,566 

45,315 

21 

13,240 

20,337 

23,858 

26,171 

29,615 

32,671 

36,343 

38,932 

46,797 

22 

14,041 

21,337 

24,939 

27,301 

30,813 

33,924 

37,659 

40,289 

48,268 

23 

14,848 

22,337 

26,018 

28,429 

32,007 

35,172 

38,968 

41,638 

49,728 

24 

15,659 

23,337 

27,096 

29,553 

33,196 

36,415 

40,270 

42,980 

51,179 

25 

16,473 

24,337 

28,172 

30,675 

34,382 

37,652 

41,566 

44,314 

52,620 

26 

17,292 

25,336 

29,246 

31,795 

35,563 

38,885 

42,856 

45,642 

54,052 

27 

18,114 

26,336 

30,319 

32,912 

36,741 

40,113 

44,140 

46,963 

55,476 

28 

18,939 

27,336 

31,391 

34,027 

37,916 

41,337 

45,419 

48,278 

56,893 

29 

19,768 

28,336 

32,461 

35,139 

39,087 

42,557 

46,693 

49,588 

58,302 

30 

20,599 

29,336 

33,530 

36,250 

40,256 

43,773 

47,962 

50,892 

59,703 


Exemple : avec d. d. 1. = 3, pour Ky a = 0,584 la probabilité est a = 0,90 

(d’après Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver 
and Boyd, Edinburgh) avec l’aimable autorisation des auteurs et des éditeurs) 
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A.5 TABLE DU COEFFICIENT DE 
CORRELATION 


La table indique la probabilité a pour que 
le coefficient de corrélation égale ou 
dépasse, en valeur absolue, une valeur 
donnée r a , c’est-à-dire la probabilité exté¬ 
rieure à l’intervalle (- r a , + r a ), en fonc¬ 
tion du nombre de degrés de liberté (d. d. 
1.) 


A 



ddl \ a 

0,10 

0,05 

0,02 

0,01 

1 

-U,y«77 

u,yyb9 

-- 

- ïïym - 

2 

0,9000 

0,9500 

0,9800 

0,9900 

3 

0,8054 

0,8783 

0,9343 

0,9587 

4 

0,7293 

0,8114 

0,8822 

0,9172 

S 

0,6694 

0,7545 

0,8329 

0,8745 

6 

0,6215 

0,7067 

0,7887 

0,8343 

7 

0,5822 

0,6664 

0,7498 

0,7977 

8 

0,5494 

0,6319 

0,7155 

0,7646 

9 

0,5214 

0,6021 

0,6851 

0,7348 

10 

0,4973 

0,5760 

0,6581 

0,7079 

11 

0,4762 

0,5529 

0,6339 

0,6835 

12 

0,4575 

0,5324 

0,6120 

0,6614 

13 

0,4409 

0,5139 

0,5923 

0,6411 

14 

0,4259 

0,4973 

0,5742 

0,6226 

15 

0,4124 

0,4821 

0,5577 

0,6055 

16 

0,4000 

0,4683 

0,5425 

0,5897 

17 

0,3887 

0,4555 

0,5285 

0,5751 

18 

0,3783 

0,4438 

0,5155 

0,5614 

19 

0,3687 

0,4329 

0,5034 

0,5487 

20 

0,3598 

0,4227 

0,4921 

0,5368 

25 

0,3233 

0,3809 

0,4451 

0,4869 

30 

0,2960 

0,3494 

0,4093 

0,4487 

35 

0,2746 

0,3246 

0,3810 

0,4182 

40 

0,2573 

0,3044 

0,3578 

0,3932 

45 

0,2428 

0,2875 

0,3384 

0,3721 

50 

0,2306 

0,2732 

0,3218 

0,3541 

60 

0,2108 

0,2500 

0,2948 

0,3248 

70 

0,1954 

0,2319 

0,2737 

0,3017 

80 

0,1829 

0,2172 

0,2565 

0,2830 

90 

0,1726 

0,2050 

0,2422 

0,2673 

100 

0,1638 

0,1946 

0,2301 

0,2540 


Exemple : avec d. d. 1. = 30, pour r a = 0,3494 la probabilité est a = 0,05 

(d’après Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver 
and Boyd, Edinburgh) avec l’aimable autorisation des auteurs et des éditeurs) 
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A.6 TABLE DU t DE STUDENT 


A 



a 

ddl 

0,90 

0,50 

0,30 

0,20 

0,10 

0,05 

0,02 

0,01 

0,001 

î 

0,158 

ÜMM 

l,9é3 

3,078 

6,314 

11,706 

mit 

63,657 

636,619 

2 

0,142 

0,816 

1,386 

1,886 

2,920 

4,303 

6,965 

9,925 

31,598 

3 

0,137 

0,765 

1,250 

1,638 

2,353 

3,182 

4,541 

5,841 

12,924 

4 

0,134 

0,741 

1,190 

1,533 

2,132 

2,776 

3,747 

4,604 

8,610 

5 

0,132 

0,727 

1,156 

1,476 

2,015 

2,571 

3,365 

4,032 

6,869 

6 

0,131 

0,718 

1,134 

1,440 

1,943 

2,447 

3,143 

3,707 

5,959 

7 

0,130 

0,711 

1,119 

1,415 

1,895 

2,365 

2,998 

3,499 

5,408 

8 

0,130 

0,706 

1,108 

1,397 

1,860 

2,306 

2,896 

3,355 

5,041 

9 

0,129 

0,703 

1,100 

1,383 

1,833 

2,262 

2,821 

3,250 

4,781 

10 

0,129 

0,700 

1,093 

1,372 

1,812 

2,228 

2,764 

3,169 

4,587 

11 

0,129 

0,697 

1,088 

1,363 

1,796 

2,201 

2,718 

3,106 

4,437 

12 

0,128 

0,695 

1,083 

1,356 

1,782 

2,179 

2,681 

3,055 

4,318 

13 

0,128 

0,694 

1,079 

1,350 

1,771 

2,160 

2,650 

3,012 

4,221 

14 

0,128 

0,692 

1,076 

1,345 

1,761 

2,145 

2,624 

2,977 

4,140 

15 

0,128 

0,691 

1,074 

1,341 

1,753 

2,131 

2,602 

2,947 

4,073 

16 

0,128 

0,690 

1,071 

1,337 

1,746 

2,120 

2,583 

2,921 

4,015 

17 

0,128 

0,689 

1,069 

1,333 

1,740 

2,110 

2,567 

2,898 

3,965 

18 

0,127 

0,688 

1,067 

1,330 

1,734 

2,101 

2,552 

2,878 

3,922 

19 

0,127 

0,688 

1,066 

1,328 

1,729 

2,093 

2,539 

2,861 

3,883 

20 

0,127 

0,687 

1,064 

1,325 

1,725 

2,086 

2,528 

2,845 

3,850 

21 

0,127 

0,686 

1,063 

1,323 

1,721 

2,080 

2,518 

2,831 

3,819 

22 

0,127 

0,686 

1,061 

1,321 

1,717 

2,074 

2,508 

2,819 

3,792 

23 

0,127 

0,685 

1,060 

1,319 

1,714 

2,069 

2,500 

2,807 

3,767 

24 

0,127 

0,685 

1,059 

1,318 

1,711 

2,064 

2,492 

2,797 

3,745 

25 

0,127 

0,684 

1,058 

1,316 

1,708 

2,060 

2,485 

2,787 

3,725 

26 

0,127 

0,684 

1,058 

1,315 

1,706 

2,056 

2,479 

2,779 

3,707 

27 

0,127 

0,684 

1,057 

1,314 

1,703 

2,052 

2,473 

2,771 

3,690 

28 

0,127 

0,683 

1,056 

1,313 

1,701 

2,048 

2,467 

2,763 

3,674 

29 

0,127 

0,683 

1,055 

1.311 

1,699 

2,045 

2,462 

2,756 

3,659 

30 

0,127 

0,683 

1,055 

1,310 

1,697 

2,042 

2,457 

2,750 

3,646 

OO 

0,126 

0,674 

1,036 

1,282 

1,645 

1,960 

2,326 

2,576 

3,291 


Exemple : avec d. d. 1. = 10, pour t = 2,228, la probabilité est a = 0,05 


(d’après Fisher et Yates, Statistical tables for biological, agricultural, and medical research (Oliver 
and Boyd, Edinburgh) avec l’aimable autorisation des auteurs et des éditeurs) 
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